論文の概要: TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems
- arxiv url: http://arxiv.org/abs/2604.05364v1
- Date: Tue, 07 Apr 2026 03:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.593827
- Title: TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems
- Title(参考訳): TFRBench: 予測システム評価のための推論ベンチマーク
- Authors: Md Atik Ahamed, Mihir Parmar, Palash Goyal, Yiwen Song, Long T. Le, Qiang Cheng, Chun-Liang Li, Hamid Palangi, Jinsung Yoon, Tomas Pfister,
- Abstract要約: 我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。
本稿では,反復的検証ループを用いて,数値的に基底となる推論トレースを合成するマルチエージェント・フレームワークを提案する。
評価は,この推論が因果的に有効であること,評価に有用であること,生成したトレースでLSMを誘導することにより,予測精度が大幅に向上することを確認した。
- 参考スコア(独自算出の注目度): 52.91956121737963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TFRBench, the first benchmark designed to evaluate the reasoning capabilities of forecasting systems. Traditionally, time-series forecasting has been evaluated solely on numerical accuracy, treating foundation models as ``black boxes.'' Unlike existing benchmarks, TFRBench provides a protocol for evaluating the reasoning generated by forecasting systems--specifically their analysis of cross-channel dependencies, trends, and external events. To enable this, we propose a systematic multi-agent framework that utilizes an iterative verification loop to synthesize numerically grounded reasoning traces. Spanning ten datasets across five domains, our evaluation confirms that this reasoning is causally effective; useful for evaluation; and prompting LLMs with our generated traces significantly improves forecasting accuracy compared to direct numerical prediction (e.g., avg. $\sim40.2\%\to56.6\%)$, validating the quality of our reasoning. Conversely, benchmarking experiments reveal that off-the-shelf LLMs consistently struggle with both reasoning (lower LLM-as-a-Judge scores) and numerical forecasting, frequently failing to capture domain-specific dynamics. TFRBench thus establishes a new standard for interpretable, reasoning-based evaluation in time-series forecasting. Our benchmark is available at: https://tfrbench.github.io
- Abstract(参考訳): 我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。
伝統的に、時系列予測は数値的精度でのみ評価され、基礎モデルを「ブラックボックス」として扱う。
既存のベンチマークとは異なり、TFRBenchはシステム予測によって生成された推論を評価するためのプロトコルを提供する。
これを実現するために,反復的検証ループを用いて数値的に基底付けられた推論トレースを合成するマルチエージェント・フレームワークを提案する。
5つの領域に10のデータセットを分散させることで、この推論が因果的に有効であり、評価に有用であることを確認し、生成したトレースでLSMを誘導することで、直接数値予測(例えば、avg)と比較して予測精度が大幅に向上する。
$\sim40.2\%\to56.6\%)$、私たちの推論の品質を検証する。
逆に、ベンチマーク実験により、既製のLLMは推論(より低いLLM-as-a-Judgeスコア)と数値予測の両方に一貫して苦労し、ドメイン固有のダイナミクスを捕捉できないことが判明した。
したがって、TFRBenchは時系列予測において、解釈可能な推論に基づく新しい標準を確立する。
私たちのベンチマークは、https://tfrbench.github.ioで公開されています。
関連論文リスト
- d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models [45.27333046908981]
emphd-TreeRPOは、dLLMのための信頼できる強化学習フレームワークである。
我々は,emphd-TreeRPOが複数の推論ベンチマークで大きく向上していることを示す。
論文 参考訳(メタデータ) (2025-12-10T14:20:07Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction [13.958280616597385]
本研究は,LLMに基づくスコアリングの予測間隔を共形予測によって提供することにより,不確実性を分析するための最初の枠組みを示す。
我々は,共形予測がカバレッジ保証付きで有効な予測間隔を提供できることを示す広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-09-23T05:26:28Z) - Aligning the Evaluation of Probabilistic Predictions with Downstream Value [2.6636053598505307]
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
論文 参考訳(メタデータ) (2025-08-25T17:41:27Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。