論文の概要: Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
- arxiv url: http://arxiv.org/abs/2601.09445v1
- Date: Wed, 14 Jan 2026 12:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.39942
- Title: Where Knowledge Collides: A Mechanistic Study of Intra-Memory Knowledge Conflict in Language Models
- Title(参考訳): 知識が衝突する場所:言語モデルにおける記憶内知識衝突の力学的研究
- Authors: Minh Vu Pham, Hsuvas Borkakoty, Yufang Hou,
- Abstract要約: 言語モデル(LM)では、同じ事象に関する一貫性のない情報がモデルのパラメトリックな知識に符号化されると、メモリ内知識の衝突が発生する。
我々は、機械的解釈可能性法を用いて、事前学習データからの知識の相反が、LM内にエンコードされる場所と方法を特定する。
本研究は,言語モデルの特定の内部成分が,事前学習から相反する知識を符号化する役割を担っているという証拠の蓄積に寄与する。
- 参考スコア(独自算出の注目度): 8.965740058804197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language models (LMs), intra-memory knowledge conflict largely arises when inconsistent information about the same event is encoded within the model's parametric knowledge. While prior work has primarily focused on resolving conflicts between a model's internal knowledge and external resources through approaches such as fine-tuning or knowledge editing, the problem of localizing conflicts that originate during pre-training within the model's internal representations remain unexplored. In this work, we design a framework based on mechanistic interpretability methods to identify where and how conflicting knowledge from the pre-training data is encoded within LMs. Our findings contribute to a growing body of evidence that specific internal components of a language model are responsible for encoding conflicting knowledge from pre-training, and we demonstrate how mechanistic interpretability methods can be leveraged to causally intervene in and control conflicting knowledge at inference time.
- Abstract(参考訳): 言語モデル(LM)では、同じ事象に関する一貫性のない情報がモデルのパラメトリックな知識に符号化されると、メモリ内知識の衝突が発生する。
先行研究は主に、微調整や知識編集といったアプローチを通じて、モデルの内部知識と外部リソースの間の対立を解決することに焦点を当ててきたが、モデルの内部表現内で事前学習中に発生する対立を局所化する問題は、まだ未解決のままである。
本研究では,機械的解釈可能性に基づくフレームワークを設計し,事前学習データからの知識の相反点をLM内にエンコードする手法を提案する。
本研究は,言語モデルの特定の内部成分が,事前学習から矛盾する知識を符号化する役割を担っているという証拠の蓄積に寄与し,機械的解釈可能性手法が,推論時に矛盾する知識を因果的に介入し制御するためにどのように活用できるかを実証する。
関連論文リスト
- CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering [53.7094431951084]
知識に基づく視覚的質問応答(KB-VQA)は、知識集約的なタスクを扱う大きな可能性を示す。
視覚言語モデルにおける静的パラメトリック知識と動的に取得された情報との間には矛盾が生じる。
KB-VQAのトレーニングフリー・コンフリクト対応・相関対応手法としてtextbfCC-VQAを提案する。
論文 参考訳(メタデータ) (2026-02-27T11:56:26Z) - Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models [80.21037538996553]
本稿では,異なる介入とアライメントによる信頼度向上のための新しいメタ認知フレームワークを提案する。
我々の手法は、知識空間をマスターされた、混乱した、行方不明な領域に分割し、対象とする知識拡大を導くために、内部認知信号を活用する。
我々のフレームワークは、知識能力の向上だけでなく、未知の知識をよりよく区別する認知行動の育成においても、その合理性を検証し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-13T15:07:35Z) - Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-21T22:27:56Z) - When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models [13.390492503308792]
我々は,視覚言語モデル(VLM)がモーダル間の衝突を解決するために使用するメカニズムを解析する。
私たちは、紛争を制御する小さな首のセットをロジット検査でローカライズします。
このような頭部のピンポイントからの注意は、視覚的オーバーライドを駆動する局所化画像領域に向けられ、精度において勾配に基づく属性よりも優れていた。
論文 参考訳(メタデータ) (2025-07-18T12:42:30Z) - Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。
本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。
我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文 参考訳(メタデータ) (2025-04-28T04:24:01Z) - Mitigating Knowledge Conflicts in Language Model-Driven Question Answering [15.29366851382021]
2つの基本的な知識源は、文書ベースの質問応答と文書要約システムにおいて重要な役割を担っている。
近年の研究では、モデル固有の知識とトレーニングデータにおける基礎的真理解との間に不整合が存在する場合、システムは推論中に問題のある振る舞いを示す可能性があるという重要な課題が明らかにされている。
本研究は,ソース入力と出力との明示的な接続を構築することで,幻覚を最小化する手法を提案する。
論文 参考訳(メタデータ) (2024-11-18T07:33:10Z) - Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。
これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文 参考訳(メタデータ) (2024-10-21T15:12:51Z) - DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models [42.776896363518844]
本研究では,メモリ内競合がLMのコンテキスト受容能力に及ぼす影響について検討した。
我々は、2つの知識衝突対策と、本質的に矛盾するデータを含む新しいデータセットであるDynamicQAを利用する。
我々は,単一真理値の事実と比較して,LMが動的事実とメモリ内衝突の程度が大きいことを検証した。
論文 参考訳(メタデータ) (2024-07-24T06:06:07Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models [18.2500350157507]
内部記憶と外部コンテキストは必然的に衝突し、言語モデル(LM)内の知識の衝突につながる
モデルパラメータを更新することなく、対立する注意を抑えることで、知識の衝突を効果的に軽減できるPatH PatcHing (PH3) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T08:34:41Z) - Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint [20.543282448771336]
本稿では,知識が相反するかどうかを識別し,解決するための適応的復号法を提案する。
実験により、COIECDは現実的なデータセットにおける知識の衝突に対して強い性能と堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2024-02-19T07:10:30Z) - Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning [87.92209048521153]
出来事の時間的推論は、物語から2つ以上の出来事の間の時間的関係を特定することを目的としている。
知識の衝突は、コンテキスト内の事象の実際の時間的関係と、モデルによって学習された事前の知識やバイアスとの間にミスマッチがあるときに起こる。
論文 参考訳(メタデータ) (2023-05-24T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。