論文の概要: TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References
- arxiv url: http://arxiv.org/abs/2505.01325v1
- Date: Fri, 02 May 2025 14:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.072304
- Title: TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References
- Title(参考訳): TRAVELER:Vag, Implicit, Explicit参照における時間的推論の評価ベンチマーク
- Authors: Svenja Kenneweg, Jörg Deigmöller, Philipp Cimiano, Julian Eggert,
- Abstract要約: TRAVELER(TRAVELER)は,質問応答のパラダイムに従う新しいベンチマークデータセットである。
旅行者は、言語時間に対する明示的、暗黙的、曖昧な時間的参照を解消するモデルの能力を評価する。
以上の結果から,LLMのベンチマークでは,イベントセットに少数のイベントがある場合,イベントセットの長さが大きく,時間的参照があまり明確でない場合には,パフォーマンスが明らかに低下することが示唆された。
- 参考スコア(独自算出の注目度): 3.939139840783596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and resolving temporal references is essential in Natural Language Understanding as we often refer to the past or future in daily communication. Although existing benchmarks address a system's ability to reason about and resolve temporal references, systematic evaluation of specific temporal references remains limited. Towards closing this gap, we introduce TRAVELER, a novel synthetic benchmark dataset that follows a Question Answering paradigm and consists of questions involving temporal references with the corresponding correct answers. TRAVELER assesses models' abilities to resolve explicit, implicit relative to speech time, and vague temporal references. Beyond investigating the performance of state-of-the-art LLMs depending on the type of temporal reference, our benchmark also allows evaluation of performance in relation to the length of the set of events. For the category of vague temporal references, ground-truth answers were established via human surveys on Prolific, following a procedure similar to the one from Kenneweg et al. To demonstrate the benchmark's applicability, we evaluate four state-of-the-art LLMs using a question-answering task encompassing 3,300 questions. Our findings show that while the benchmarked LLMs can answer questions over event sets with a handful of events and explicit temporal references successfully, performance clearly deteriorates with larger event set length and when temporal references get less explicit. Notably, the vague question category exhibits the lowest performance across all models. The benchmark is publicly available at: https://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELER
- Abstract(参考訳): 自然言語理解においては,日常コミュニケーションにおける過去や未来をしばしば参照するので,時間的参照の理解と解決が不可欠である。
既存のベンチマークは、時間参照を推論し、解決するシステムの能力に対処するが、特定の時間参照の体系的評価は依然として限られている。
このギャップを埋めるために, TRAVELERを導入する。TRAVELERは, 質問回答パラダイムに従う新しいベンチマークデータセットで, 時間的参照と対応する正解を関連づけた質問からなる。
TRAVELERは、音声時間に対する明示的、暗黙的、曖昧な時間的参照を解消するモデルの能力を評価する。
時間的基準のタイプによって、最先端のLCMの性能を調査するだけでなく、このベンチマークでは、イベントの集合の長さに関するパフォーマンスの評価も可能である。
あいまいな時間的基準のカテゴリについては、KennewegらによるProlificの人間による調査を通じて、このベンチマークの適用性を実証するために、3300の質問を含む質問応答タスクを用いて、4つの最先端LCMを評価した。
以上の結果から,LLMはイベントセットに対して,少数のイベントと明示的な時間的参照による解答が可能であるが,時間的参照がより明確になった場合,イベントセットの長さが大きくなると明らかに性能が低下することが示唆された。
特に、あいまいな問題カテゴリーは全てのモデルの中で最も低い性能を示す。
ベンチマークは、https://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELERで公開されている。
関連論文リスト
- Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models [38.12930048471948]
TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。
時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。
現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
論文 参考訳(メタデータ) (2025-08-04T04:27:06Z) - Evaluating List Construction and Temporal Understanding capabilities of Large Language Models [54.39278049092508]
大規模言語モデル(LLM)は、特に時間的理解タスクにおける幻覚や誤りの影響を受けやすい。
本稿では,時系列に適合するリスト形式で構造化された回答を必要とするTLQA(Time Referenceed List based Question Answering)ベンチマークを提案する。
閉書およびオープンドメイン設定におけるTLQA上の最先端生成モデルの時間的理解とリスト構築能力について検討する。
論文 参考訳(メタデータ) (2025-06-26T21:40:58Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:39:57Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization [34.257914212541394]
本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
合成された事象に基づく時系列イベントシナリオを提示する。
論文 参考訳(メタデータ) (2024-07-03T22:02:07Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Semantic Framework based Query Generation for Temporal Question
Answering over Knowledge Graphs [19.851986862305623]
本稿では,提案するエンティティの関連事実を探索し,問合せグラフを生成する時間的質問応答手法であるSF-TQAを提案する。
評価の結果,SF-TQAは知識グラフの異なる2つのベンチマークにおいて既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-10-10T08:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。