論文の概要: When Facts Change: Probing LLMs on Evolving Knowledge with evolveQA
- arxiv url: http://arxiv.org/abs/2510.19172v1
- Date: Wed, 22 Oct 2025 02:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.931142
- Title: When Facts Change: Probing LLMs on Evolving Knowledge with evolveQA
- Title(参考訳): Factsの変化: 進化的QAによる知識の進化に関するLLMの提案
- Authors: Nishanth Sridhar Nakshatri, Shamik Roy, Manoj Ghuhan Arivazhagan, Hanhan Zhou, Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah,
- Abstract要約: 時間的に進化する知識に基づいてLLMを評価するために特別に設計されたベンチマークであるEvolutionQAを紹介する。
本フレームワークは,自然発生の知識の進化を識別し,LLMの知識の切り離しに合わせたゴールド回答の質問を生成する。
静的知識質問と比較して,進化QAでは最大31%の大幅な性能低下を示した。
- 参考スコア(独自算出の注目度): 11.701030951844222
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMs often fail to handle temporal knowledge conflicts--contradictions arising when facts evolve over time within their training data. Existing studies evaluate this phenomenon through benchmarks built on structured knowledge bases like Wikidata, but they focus on widely-covered, easily-memorized popular entities and lack the dynamic structure needed to fairly evaluate LLMs with different knowledge cut-off dates. We introduce evolveQA, a benchmark specifically designed to evaluate LLMs on temporally evolving knowledge, constructed from 3 real-world, time-stamped corpora: AWS updates, Azure changes, and WHO disease outbreak reports. Our framework identifies naturally occurring knowledge evolution and generates questions with gold answers tailored to different LLM knowledge cut-off dates. Through extensive evaluation of 12 open and closed-source LLMs across 3 knowledge probing formats, we demonstrate significant performance drops of up to 31% on evolveQA compared to static knowledge questions.
- Abstract(参考訳): LLMは時間的知識の衝突を扱うのにしばしば失敗する。
既存の研究では、Wikidataのような構造化知識ベース上に構築されたベンチマークを通じてこの現象を評価するが、広くカバーされ、覚えやすい人気エンティティに焦点を当てており、異なる知識カットオフ日時でLLMを適切に評価するために必要な動的構造が欠如している。
このベンチマークは、リアルタイムの3つのタイムスタンプされたコーパス(AWSのアップデート、Azureの変更、WHOの疾病発生レポート)から構築されたものだ。
本フレームワークは,自然発生の知識の進化を識別し,LLMの知識の切り離しに合わせたゴールド回答の質問を生成する。
3つの知識探索フォーマットにまたがる12のオープンおよびクローズドソースLCMの広範な評価を通じて、静的知識問題と比較して、進化QAにおいて最大31%の大幅な性能低下を示す。
関連論文リスト
- EvoWiki: Evaluating LLMs on Evolving Knowledge [72.92365627254063]
EvoWiki(エボウィキ)は、知識の進化を反映した進化的データセットである。
我々の結果は、現在のモデルは進化した知識に苦しむことが多く、時代遅れや誤った反応を頻繁に与えていることを示している。
EvoWikiは、大規模言語モデルの知識進化能力に関する将来の研究を進めるための堅牢なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-18T08:04:57Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。
ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。
ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。
総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。
一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。