論文の概要: Fidel-TS: A High-Fidelity Benchmark for Multimodal Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2509.24789v1
- Date: Mon, 29 Sep 2025 13:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.017909
- Title: Fidel-TS: A High-Fidelity Benchmark for Multimodal Time Series Forecasting
- Title(参考訳): Fidel-TS:マルチモーダル時系列予測のための高忠実ベンチマーク
- Authors: Zhijian Xu, Wanxu Cai, Xilin Dai, Zhaorong Deng, Qiang Xu,
- Abstract要約: 我々は、データソーシングの整合性、厳密な因果音性、構造的明快さに焦点をあてて、高忠実度ベンチマークのコア原則を定式化する。
ライブAPIからデータをソーシングすることで,これらの原則に基づいて構築された,新たな大規模ベンチマークであるFidel-TSを紹介します。
- 参考スコア(独自算出の注目度): 11.918481455788855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of time series forecasting models is hindered by a critical lack of high-quality benchmarks, leading to a potential illusion of progress. Existing datasets suffer from issues ranging from pre-training data contamination in the age of LLMs to the causal and description leakage prevalent in early multimodal designs. To address this, we formalize the core principles of high-fidelity benchmarking, focusing on data sourcing integrity, strict causal soundness, and structural clarity. We introduce Fidel-TS, a new large-scale benchmark built from the ground up on these principles by sourcing data from live APIs. Our extensive experiments validate this approach by exposing the critical biases and design limitations of prior benchmarks. Furthermore, we conclusively demonstrate that the causal relevance of textual information is the key factor in unlocking genuine performance gains in multimodal forecasting.
- Abstract(参考訳): 時系列予測モデルの評価は、高品質なベンチマークの欠如によって妨げられ、潜在的に進歩の錯覚に繋がる。
既存のデータセットは、LLM時代のデータ汚染の事前訓練から、初期のマルチモーダル設計で一般的な因果的および記述的リークまで、様々な問題に悩まされている。
これを解決するために、データソーシングの整合性、厳密な因果音性、構造的明瞭性に着目して、高忠実度ベンチマークのコア原則を定式化する。
ライブAPIからデータをソーシングすることで,これらの原則に基づいて構築された,新たな大規模ベンチマークであるFidel-TSを紹介します。
我々は,従来のベンチマークの限界バイアスと設計限界を明らかにすることで,このアプローチを検証した。
さらに,テキスト情報の因果関係が,マルチモーダル予測における真のパフォーマンス向上の鍵となる要因であることを示す。
関連論文リスト
- It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios [17.11442807888366]
Causalは、時系列因果発見法の堅牢性を評価するために設計されたベンチマークスイートである。
我々は8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。
様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんどディープラーニングベースのアプローチである。
論文 参考訳(メタデータ) (2026-02-08T11:27:06Z) - Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation [27.59197535041953]
大規模言語モデル(LLM)は推薦システムにとって有望なフロンティアである。
本稿では,高品質な合成データを生成するための新しい階層化フレームワークを提案する。
われわれは、当社の高品質なレコメンデーション特化データに基づいて、継続的に事前訓練されたLSMの堅牢なパワーロースケーリングを、初めて実証的に実証した。
論文 参考訳(メタデータ) (2026-02-07T01:15:15Z) - Time Series Foundation Models: Benchmarking Challenges and Requirements [0.0]
時系列基礎モデル(TSFM)は、時系列予測の新しいパラダイムである。
TSFMの評価は、より広範なトレーニングセットと同様に、整合性ベンチマークデータの確保がより困難になるため、難しい。
論文 参考訳(メタデータ) (2025-10-15T15:15:45Z) - A Unified Frequency Domain Decomposition Framework for Interpretable and Robust Time Series Forecasting [81.73338008264115]
時系列予測の現在のアプローチは、時間領域であれ周波数領域であれ、主に線形層やトランスフォーマーに基づいたディープラーニングモデルを使用する。
本稿では,多種多様な時系列を数学的に抽象化する統合周波数領域分解フレームワークFIREを提案する。
火は長期予測ベンチマークで最先端のモデルを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-11T09:59:25Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Position: There are no Champions in Long-Term Time Series Forecasting [0.0]
我々は、より複雑なモデルを追求することから、ベンチマークプラクティスの強化へと焦点を移す必要があることに重点を置いています。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
論文 参考訳(メタデータ) (2025-02-19T19:08:37Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - A federated large language model for long-term time series forecasting [4.696083734269233]
長距離時系列予測に適した連合型大言語モデル(LLM)であるFedTimeを提案する。
エッジデバイスやクライアントを別のクラスタに分割するために、K平均クラスタリングを採用しています。
また、チャンネルの独立性やパッチの適用により、ローカルなセマンティック情報をよりよく保存する。
論文 参考訳(メタデータ) (2024-07-30T02:38:27Z) - Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。
テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。
ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文 参考訳(メタデータ) (2024-04-29T16:05:36Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。