論文の概要: How often do Answers Change? Estimating Recency Requirements in Question Answering
- arxiv url: http://arxiv.org/abs/2603.16544v1
- Date: Tue, 17 Mar 2026 14:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.315964
- Title: How often do Answers Change? Estimating Recency Requirements in Question Answering
- Title(参考訳): 回答の頻度 : 質問回答における要求条件の推定
- Authors: Bhawna Piryani, Zehra Mert, Adam Jatowt,
- Abstract要約: 大規模言語モデル(LLM)は、時間に敏感な質問に答える際に、時代遅れの知識に依存することが多い。
既存のベンチマークでは、定期的に回答をリフレッシュするか、固定されたテンプレートに依存している。
我々は,どの頻度で回答が変わるかによって,質問を分類する傾向の分類を導入した。
本稿では,RecencyQAという4,031のオープンドメイン質問に,リレーシと定常性ラベルを付加したデータセットを提示する。
- 参考スコア(独自算出の注目度): 21.849878234991696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often rely on outdated knowledge when answering time-sensitive questions, leading to confident yet incorrect responses. Without explicit signals indicating whether up-to-date information is required, models struggle to decide when to retrieve external evidence, how to reason about stale facts, and how to rank answers by their validity. Existing benchmarks either periodically refresh answers or rely on fixed templates, but they do not reflect on how frequently answers change or whether a question inherently requires up-to-date information. To address this gap, we introduce a recency-stationarity taxonomy that categorizes questions by how often their answers change and whether this change frequency is time-invariant or context-dependent. Building on this taxonomy, we present RecencyQA, a dataset of 4,031 open-domain questions annotated with recency and stationarity labels. Through human evaluation and empirical analysis, we show that non-stationary questions, i.e., those where context changes the recency requirement, are significantly more challenging for LLMs, with difficulty increasing as update frequency rises. By explicitly modeling recency and context dependence, RecencyQA enables fine-grained benchmarking and analysis of temporal reasoning beyond binary notions of freshness, and provides a foundation for developing recency-aware and context-sensitive question answering systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、時間に敏感な質問に答える際に、古い知識に頼っていることが多い。
最新の情報が必要かどうかを示す明示的なシグナルがなければ、モデルはいつ外部の証拠を回収するか、どのように古い事実を推論するか、どのように回答を正当性でランク付けするかを決定するのに苦労する。
既存のベンチマークでは、定期的に回答をリフレッシュするか、固定されたテンプレートに依存している。
このギャップに対処するために、我々は、どの頻度で回答が変わるか、この変化頻度が時間不変か、文脈依存かによって、質問を分類する直立定常分類を導入する。
この分類に基づいて、我々は4,031のオープンドメイン質問のデータセットであるRecencyQA(RecencyQA)を提示する。
人間の評価と経験的分析を通して、状況が待ち時間要求を変えるような非定常的な質問は、更新頻度が上昇するにつれて、LSMにとって著しく困難であることが示される。
RecencyQAは、正確さとコンテキスト依存を明示的にモデル化することにより、新鮮さという二項概念を超えた時間的推論の詳細なベンチマークと分析を可能にし、状況に敏感な質問応答システムを開発するための基盤を提供する。
関連論文リスト
- It's High Time: A Survey of Temporal Question Answering [17.07150094603319]
TQA(Temporal Question Answering)は、時間的制約や文脈に関する質問に答えることに焦点を当てている。
ニューラルモデルと大規模言語モデル(LLM)によるTQAの最近の進歩
時間的堅牢性、傾向認識、一般化をテストするために設計されたベンチマークデータセットと評価戦略。
論文 参考訳(メタデータ) (2025-05-26T17:21:26Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - RealTime QA: What's the Answer Right Now? [137.04039209995932]
本稿では,動的質問応答(QA)プラットフォームであるREALTIME QAを紹介する。
GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。
GPT-3は、検索された文書が答えを見つけるのに十分な情報を提供していない場合、時代遅れの回答を返す傾向がある。
論文 参考訳(メタデータ) (2022-07-27T07:26:01Z) - SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.495151447459443]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。
質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。
我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) (2021-09-13T17:53:21Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。