論文の概要: Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
- arxiv url: http://arxiv.org/abs/2601.09445v1
- Date: Wed, 14 Jan 2026 12:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.39942
- Title: Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
- Title(参考訳): 知識が衝突する場所:言語モデルにおける記憶内知識衝突の力学的研究
- Authors: Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou,
- Abstract要約: 言語モデル(LM)では、同じ事象に関する一貫性のない情報がモデルのパラメトリックな知識に符号化されると、メモリ内知識の衝突が発生する。
我々は、機械的解釈可能性法を用いて、事前学習データからの知識の相反が、LM内にエンコードされる場所と方法を特定する。
本研究は,言語モデルの特定の内部成分が,事前学習から相反する知識を符号化する役割を担っているという証拠の蓄積に寄与する。
- 参考スコア(独自算出の注目度): 8.965740058804197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language models (LMs), intra-memory knowledge conflict largely arises when inconsistent information about the same event is encoded within the model's parametric knowledge. While prior work has primarily focused on resolving conflicts between a model's internal knowledge and external resources through approaches such as fine-tuning or knowledge editing, the problem of localizing conflicts that originate during pre-training within the model's internal representations remain unexplored. In this work, we design a framework based on mechanistic interpretability methods to identify where and how conflicting knowledge from the pre-training data is encoded within LMs. Our findings contribute to a growing body of evidence that specific internal components of a language model are responsible for encoding conflicting knowledge from pre-training, and we demonstrate how mechanistic interpretability methods can be leveraged to causally intervene in and control conflicting knowledge at inference time.
- Abstract(参考訳): 言語モデル(LM)では、同じ事象に関する一貫性のない情報がモデルのパラメトリックな知識に符号化されると、メモリ内知識の衝突が発生する。
先行研究は主に、微調整や知識編集といったアプローチを通じて、モデルの内部知識と外部リソースの間の対立を解決することに焦点を当ててきたが、モデルの内部表現内で事前学習中に発生する対立を局所化する問題は、まだ未解決のままである。
本研究では,機械的解釈可能性に基づくフレームワークを設計し,事前学習データからの知識の相反点をLM内にエンコードする手法を提案する。
本研究は,言語モデルの特定の内部成分が,事前学習から矛盾する知識を符号化する役割を担っているという証拠の蓄積に寄与し,機械的解釈可能性手法が,推論時に矛盾する知識を因果的に介入し制御するためにどのように活用できるかを実証する。
関連論文リスト
- That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-21T22:27:56Z) - Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。
本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。
我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文 参考訳(メタデータ) (2025-04-28T04:24:01Z) - Mitigating Knowledge Conflicts in Language Model-Driven Question Answering [15.29366851382021]
2つの基本的な知識源は、文書ベースの質問応答と文書要約システムにおいて重要な役割を担っている。
近年の研究では、モデル固有の知識とトレーニングデータにおける基礎的真理解との間に不整合が存在する場合、システムは推論中に問題のある振る舞いを示す可能性があるという重要な課題が明らかにされている。
本研究は,ソース入力と出力との明示的な接続を構築することで,幻覚を最小化する手法を提案する。
論文 参考訳(メタデータ) (2024-11-18T07:33:10Z) - DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models [42.776896363518844]
本研究では,メモリ内競合がLMのコンテキスト受容能力に及ぼす影響について検討した。
我々は、2つの知識衝突対策と、本質的に矛盾するデータを含む新しいデータセットであるDynamicQAを利用する。
我々は,単一真理値の事実と比較して,LMが動的事実とメモリ内衝突の程度が大きいことを検証した。
論文 参考訳(メタデータ) (2024-07-24T06:06:07Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint [20.543282448771336]
本稿では,知識が相反するかどうかを識別し,解決するための適応的復号法を提案する。
実験により、COIECDは現実的なデータセットにおける知識の衝突に対して強い性能と堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2024-02-19T07:10:30Z) - Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning [87.92209048521153]
出来事の時間的推論は、物語から2つ以上の出来事の間の時間的関係を特定することを目的としている。
知識の衝突は、コンテキスト内の事象の実際の時間的関係と、モデルによって学習された事前の知識やバイアスとの間にミスマッチがあるときに起こる。
論文 参考訳(メタデータ) (2023-05-24T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。