論文の概要: Fidel-TS: A High-Fidelity Benchmark for Multimodal Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2509.24789v1
- Date: Mon, 29 Sep 2025 13:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.017909
- Title: Fidel-TS: A High-Fidelity Benchmark for Multimodal Time Series Forecasting
- Title(参考訳): Fidel-TS:マルチモーダル時系列予測のための高忠実ベンチマーク
- Authors: Zhijian Xu, Wanxu Cai, Xilin Dai, Zhaorong Deng, Qiang Xu,
- Abstract要約: 我々は、データソーシングの整合性、厳密な因果音性、構造的明快さに焦点をあてて、高忠実度ベンチマークのコア原則を定式化する。
ライブAPIからデータをソーシングすることで,これらの原則に基づいて構築された,新たな大規模ベンチマークであるFidel-TSを紹介します。
- 参考スコア(独自算出の注目度): 11.918481455788855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of time series forecasting models is hindered by a critical lack of high-quality benchmarks, leading to a potential illusion of progress. Existing datasets suffer from issues ranging from pre-training data contamination in the age of LLMs to the causal and description leakage prevalent in early multimodal designs. To address this, we formalize the core principles of high-fidelity benchmarking, focusing on data sourcing integrity, strict causal soundness, and structural clarity. We introduce Fidel-TS, a new large-scale benchmark built from the ground up on these principles by sourcing data from live APIs. Our extensive experiments validate this approach by exposing the critical biases and design limitations of prior benchmarks. Furthermore, we conclusively demonstrate that the causal relevance of textual information is the key factor in unlocking genuine performance gains in multimodal forecasting.
- Abstract(参考訳): 時系列予測モデルの評価は、高品質なベンチマークの欠如によって妨げられ、潜在的に進歩の錯覚に繋がる。
既存のデータセットは、LLM時代のデータ汚染の事前訓練から、初期のマルチモーダル設計で一般的な因果的および記述的リークまで、様々な問題に悩まされている。
これを解決するために、データソーシングの整合性、厳密な因果音性、構造的明瞭性に着目して、高忠実度ベンチマークのコア原則を定式化する。
ライブAPIからデータをソーシングすることで,これらの原則に基づいて構築された,新たな大規模ベンチマークであるFidel-TSを紹介します。
我々は,従来のベンチマークの限界バイアスと設計限界を明らかにすることで,このアプローチを検証した。
さらに,テキスト情報の因果関係が,マルチモーダル予測における真のパフォーマンス向上の鍵となる要因であることを示す。
関連論文リスト
- Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Position: There are no Champions in Long-Term Time Series Forecasting [0.0]
我々は、より複雑なモデルを追求することから、ベンチマークプラクティスの強化へと焦点を移す必要があることに重点を置いています。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
論文 参考訳(メタデータ) (2025-02-19T19:08:37Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - A federated large language model for long-term time series forecasting [4.696083734269233]
長距離時系列予測に適した連合型大言語モデル(LLM)であるFedTimeを提案する。
エッジデバイスやクライアントを別のクラスタに分割するために、K平均クラスタリングを採用しています。
また、チャンネルの独立性やパッチの適用により、ローカルなセマンティック情報をよりよく保存する。
論文 参考訳(メタデータ) (2024-07-30T02:38:27Z) - Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。
テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。
ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文 参考訳(メタデータ) (2024-04-29T16:05:36Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。