論文の概要: Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs
- arxiv url: http://arxiv.org/abs/2506.07270v1
- Date: Sun, 08 Jun 2025 20:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.740217
- Title: Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs
- Title(参考訳): 時間的矛盾に基づく質問応答:LLMによる知識の進化の評価と組織化
- Authors: Atahan Özer, Çağatay Yıldız,
- Abstract要約: 大規模言語モデル(LLM)は、質問応答と推論において顕著な能力を示す。
この知識を更新するには、通常、高価で不安定な再トレーニングが必要です。
本稿では、ソース文書から構造化された外部メモリを段階的に構築する軽量なエージェント型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit remarkable capabilities in question answering and reasoning thanks to their extensive parametric memory. However, their knowledge is inherently limited by the scope of their pre-training data, while real-world information evolves continuously. Updating this knowledge typically requires costly and brittle re-training, or in-context learning (ICL), which becomes impractical at scale given the volume and volatility of modern information. Motivated by these limitations, we investigate how LLMs perform when exposed to temporal text corpora, or documents that reflect evolving knowledge over time, such as sports biographies where facts like a player's "current team" change year by year. To this end, we introduce two new benchmarks: Temporal Wiki, which captures factual drift across historical Wikipedia snapshots, and Unified Clark, which aggregates timestamped news articles to simulate real-world information accumulation. Our analysis reveals that LLMs often struggle to reconcile conflicting or outdated facts and can be misled when multiple versions of a fact appear in context. To address these issues, we propose a lightweight, agentic framework that incrementally builds a structured, external memory from source documents without requiring re-training. This knowledge organization strategy enables models to retrieve and reason over temporally filtered, relevant information at inference time. Empirically, our method outperforms ICL and RAG baselines across both benchmarks, especially on questions requiring more complex reasoning or integration of conflicting facts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲なパラメトリックメモリのおかげで、質問応答と推論に顕著な能力を示す。
しかし、その知識は訓練前のデータの範囲によって本質的に制限され、実際の情報は継続的に進化する。
この知識を更新するには、一般的に高価で不安定な再訓練(ICL)を必要とする。
これらの制約により,LLMが時間的テキストコーパスに曝露した場合や,選手の「現在のチーム」のような事実が年々変化するスポーツ伝記など,時間とともに進化する知識を反映した文書を調査する。
この目的のために、過去のウィキペディアのスナップショットの事実をキャプチャするTemporal Wikiと、リアルタイム情報の蓄積をシミュレートするタイムスタンプ付きニュース記事を集約するUnified Clarkの2つの新しいベンチマークを紹介した。
我々の分析によると、LLMは矛盾や時代遅れの事実の解決に苦しむことが多く、事実の複数のバージョンが文脈に現れると誤解されることがある。
これらの問題に対処するために、ソース文書から構造化された外部メモリを段階的に構築する軽量なエージェント型フレームワークを提案する。
この知識組織戦略により、モデルが時間的にフィルタリングされた関連する情報を推論時に検索し、推論することができる。
実験的に,本手法は両ベンチマーク,特に複雑な推論や矛盾する事実の統合を必要とする質問に対して,ICLとRAGのベースラインを上回ります。
関連論文リスト
- ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。
ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。
ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。