論文の概要: Tracking the Limits of Knowledge Propagation: How LLMs Fail at Multi-Step Reasoning with Conflicting Knowledge
- arxiv url: http://arxiv.org/abs/2601.15495v1
- Date: Wed, 21 Jan 2026 21:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.428998
- Title: Tracking the Limits of Knowledge Propagation: How LLMs Fail at Multi-Step Reasoning with Conflicting Knowledge
- Title(参考訳): 知識伝達限界の追跡:多段階推論におけるLLMの失敗と知識の衝突
- Authors: Yiyang Feng, Zeming Chen, Haotian Wu, Jiawei Zhou, Antoine Bosselut,
- Abstract要約: TRACK(Testing Reasoning Amid Conflicting Knowledge)は、LLMがマルチステップ推論によって新しい知識をどのように伝播するかを研究するための新しいベンチマークである。
この結果から,モデルに更新事実を付与するよりも,モデルに更新事実を付与する方が性能を悪化させる可能性が示唆された。
この失敗は、更新された事実を忠実に統合できないことと、知識が統合されたとしても推論に欠陥があることから生じることを示している。
- 参考スコア(独自算出の注目度): 26.769199929372956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common solution for mitigating outdated or incorrect information in Large Language Models (LLMs) is to provide updated facts in-context or through knowledge editing. However, these methods introduce knowledge conflicts when the knowledge update fails to overwrite the model's parametric knowledge, which propagate to faulty reasoning. Current benchmarks for this problem, however, largely focus only on single knowledge updates and fact recall without evaluating how these updates affect downstream reasoning. In this work, we introduce TRACK (Testing Reasoning Amid Conflicting Knowledge), a new benchmark for studying how LLMs propagate new knowledge through multi-step reasoning when it conflicts with the model's initial parametric knowledge. Spanning three reasoning-intensive scenarios (WIKI, CODE, and MATH), TRACK introduces multiple, realistic conflicts to mirror real-world complexity. Our results on TRACK reveal that providing updated facts to models for reasoning can worsen performance compared to providing no updated facts to a model, and that this performance degradation exacerbates as more updated facts are provided. We show this failure stems from both inability to faithfully integrate updated facts, but also flawed reasoning even when knowledge is integrated. TRACK provides a rigorous new benchmark to measure and guide future progress on propagating conflicting knowledge in multi-step reasoning.
- Abstract(参考訳): LLM(Large Language Models)において、時代遅れまたは誤った情報を緩和するための一般的な解決策は、コンテキスト内または知識編集を通じて更新された事実を提供することである。
しかし、これらの手法は、知識更新がモデルのパラメトリック知識を上書きできない場合に知識の衝突を引き起こす。
しかし、この問題に対する現在のベンチマークは、主に、ダウンストリームの推論にどのように影響するかを評価することなく、単一の知識更新と事実リコールのみに焦点を当てている。
本研究では,LLMがモデルの初期パラメトリック知識と矛盾する場合に,多段階の推論を通じて新たな知識を伝播させる方法を研究するための新しいベンチマークであるTRACK(Testing Reasoning Amid Conflicting Knowledge)を紹介する。
3つの推論集約シナリオ(WIKI、CODE、MATH)を拡大することで、TRACKは現実の複雑さを反映する複数の現実的な競合を導入する。
TRACKを用いた結果から,モデルに更新された事実を提示するよりも,モデルに更新された事実を提示する方が,モデルに更新された事実を提示する方がパフォーマンスを悪化させる可能性が示唆された。
この失敗は、更新された事実を忠実に統合できないことと、知識が統合されたとしても推論に欠陥があることから生じることを示している。
TRACKは、多段階推論における矛盾する知識の伝播に関する将来の進歩を計測し、ガイドするための厳格な新しいベンチマークを提供する。
関連論文リスト
- FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation [37.28571879699906]
検索システムで強化された大規模言語モデル(LLM)は、知識集約的なタスクを扱う上で大きな可能性を示している。
本稿では,モデルパラメトリック知識と検索コンテキストの相違を明示的にモデル化することにより,知識の対立を解決する新しいフレームワークであるFaithfulRAGを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:02:54Z) - Decoupling Reasoning and Knowledge Injection for In-Context Knowledge Editing [12.5122702720856]
インコンテキスト編集(ICE)は、入力コンテキストに直接新しい知識を注入することで、軽量なソリューションを提供する。
既存のICEアプローチは、新しく注入された知識をモデル本来の推論プロセスから明確に分離するものではない。
マスク付き推論経路を生成することで知識編集から推論を分離する新しいICEフレームワークであるDecKERを提案する。
論文 参考訳(メタデータ) (2025-05-31T12:51:12Z) - CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners [109.87058236007907]
CaKE(Circuit-aware Knowledge Editing)は、大規模言語モデルにおける知識の効果的な統合を強化する新しい手法である。
実験により、CaKEは関連する推論タスク間の編集された知識をより正確かつ一貫した使用を可能にすることが示された。
論文 参考訳(メタデータ) (2025-03-20T17:14:34Z) - Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents [54.953320616069654]
Retrieval-augmented Generationは、完全なパラメトリック言語モデルの多くの問題を緩和する。
RAGでは、コンテキストで提供される文書からモデルの知識を更新することができる。
本稿では,そのような知識紛争を現実的に研究するための枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:59:36Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。