論文の概要: TEMPO: A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval
- arxiv url: http://arxiv.org/abs/2601.09523v1
- Date: Wed, 14 Jan 2026 14:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.433392
- Title: TEMPO: A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval
- Title(参考訳): TEMPO: 時間的推論集約検索のための現実的なマルチドメインベンチマーク
- Authors: Abdelrahman Abdallah, Mohammed Ali, Muhammad Abdul-Mageed, Adam Jatowt,
- Abstract要約: 既存の時間的QAベンチマークは、ニュースコーパスからの事実検索クエリに焦点を当てている。
13ドメインにわたる時間的推論と推論集約検索を組み合わせた最初のベンチマークであるTEMPOを紹介する。
- 参考スコア(独自算出の注目度): 44.94371780739013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing temporal QA benchmarks focus on simple fact-seeking queries from news corpora, while reasoning-intensive retrieval benchmarks lack temporal grounding. However, real-world information needs often require reasoning about temporal evolution and synthesizing evidence across time periods. We introduce TEMPO, the first benchmark combining temporal reasoning with reasoning-intensive retrieval across 13 domains. TEMPO features: (1) 1,730 complex queries requiring deep temporal reasoning such as tracking changes, identifying trends, or comparing cross-period evidence; (2) step-wise retrieval planning with 3,976 decomposed steps and gold documents mapped to each step for multi-hop evaluation; and (3) novel temporal metrics including Temporal Coverage@k and Temporal Precision@k measuring whether results span required time periods. Evaluation of 12 retrieval systems reveals substantial challenges: the best model (DiVeR) achieves only 32.0 NDCG@10 and 71.4\% Temporal Coverage@10, demonstrating difficulty in retrieving temporally complete evidence. We believe TEMPO provides a challenging benchmark for improving temporal reasoning in retrieval and RAG systems. Our code and data are available at https://github.com/tempo-bench/Tempo. See also our official website: https://tempo-bench.github.io/.
- Abstract(参考訳): 既存の時間的QAベンチマークは、ニュースコーパスからの単純な事実検索クエリに重点を置いているが、推論集約型検索ベンチマークには時間的根拠がない。
しかし、現実の情報は時相進化の推論と、時間にわたって証拠を合成する必要があることが多い。
13ドメインにわたる時間的推論と推論集約検索を組み合わせた最初のベンチマークであるTEMPOを紹介する。
TEMPOの特徴は,(1)変化の追跡,傾向の特定,期間横断的証拠の比較などの時間的推論を必要とする1,730件の複雑なクエリ,(2)分割された3,976件のステップと,各ステップにマッピングされた金のドキュメントによる段階的検索計画,(3)時間的カバレッジ@kや時間的精度@kなどの新しい時間的指標。
最良のモデル(DiVeR)は32.0 NDCG@10と71.4\%の時間的被覆@10しか達成せず、時間的完全証拠の回収が困難であることを示す。
我々はTEMPOが検索とRAGシステムにおける時間的推論を改善するための挑戦的なベンチマークを提供すると考えている。
私たちのコードとデータはhttps://github.com/tempo-bench/Tempo.comで公開されています。
公式ウェブサイト(https://tempo-bench.github.io/)も参照。
関連論文リスト
- Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents [80.33280979339123]
強化学習(RL)を用いた時間認識メモリ選択ポリシーを学習するフレームワークであるMemory-T1を紹介する。
Time-Dialogベンチマークでは、Memory-T1が7Bモデルを67.0%に引き上げ、オープンソースモデルの新たな最先端パフォーマンスを確立した。
論文 参考訳(メタデータ) (2025-12-23T06:37:29Z) - Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [34.611056451149416]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
推論モデルと非推論モデルについて広範な実験を行う。
TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文 参考訳(メタデータ) (2025-05-19T09:22:02Z) - TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions [18.87473448633352]
本研究では,検索プロセスにクエリ日時と文書タイムスタンプの両方を埋め込むことで,時間情報を明示的に組み込むTempRetrieverを提案する。
TempRetrieverは、Top-1検索精度が6.63%向上し、NDCG@10が3.79%向上した。
また,トレーニング中の時間的ずれに対処し,検索性能をさらに向上する,時間に基づく新規なネガティブサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-28T13:06:25Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。