論文の概要: Taming Knowledge Conflicts in Language Models
- arxiv url: http://arxiv.org/abs/2503.10996v1
- Date: Fri, 14 Mar 2025 01:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:12.606557
- Title: Taming Knowledge Conflicts in Language Models
- Title(参考訳): 言語モデルにおける知識紛争の解決
- Authors: Gaotang Li, Yuzhong Chen, Hanghang Tong,
- Abstract要約: 言語モデル(LM)は、パラメトリックメモリが文脈的知識と矛盾する場合、しばしば知識の衝突に遭遇する。
我々は「文脈情報とパラメトリックメモリの重畳」と表現し、高い影響力を持つアテンションヘッドは、記憶とコンテキストの両方に同時に寄与することができる。
実験時の注意介入手法であるJust Run Twice(JUICE)を提案する。
- 参考スコア(独自算出の注目度): 44.3653067423636
- License:
- Abstract: Language Models (LMs) often encounter knowledge conflicts when parametric memory contradicts contextual knowledge. Previous works attribute this conflict to the interplay between "memory heads" and "context heads", attention heads assumed to promote either memory or context exclusively. In this study, we go beyond this fundamental assumption by uncovering a critical phenomenon we term the "superposition of contextual information and parametric memory", where highly influential attention heads could simultaneously contribute to both memory and context. Building upon this insight, we propose Just Run Twice (JUICE), a test-time attention intervention method that steers LMs toward either parametric beliefs or contextual knowledge without requiring fine-tuning. JUICE identifies a set of reliable attention heads and leverages a dual-run approach to mitigate the superposition effects. Extensive experiments across 11 datasets and 6 model architectures demonstrate that JUICE sets the new state-of-the-art performance and robust generalization, achieving significant and consistent improvement across different domains under various conflict types. Finally, we theoretically analyze knowledge conflict and the superposition of contextual information and parametric memory in attention heads, which further elucidates the effectiveness of JUICE in these settings.
- Abstract(参考訳): 言語モデル(LM)は、パラメトリックメモリが文脈的知識と矛盾する場合、しばしば知識の衝突に遭遇する。
以前の作品では、この対立は「メモリヘッド」と「コンテキストヘッド」の相互作用によるものと考えられており、アテンションヘッドはメモリとコンテキストの両方を排他的に促進すると考えられている。
本研究では,「文脈情報とパラメトリック記憶の重畳」という重要な現象を明らかにすることで,この基本的な仮定を克服する。
この知見に基づいて、私たちは、微調整を必要とせず、パラメトリックな信念や文脈的知識にLMを操るテストタイムアテンション介入手法であるJust Run Twice(JUICE)を提案する。
JUICEは信頼度の高いアテンションヘッドのセットを特定し、重畳効果を軽減するためにデュアルランアプローチを活用する。
11のデータセットと6つのモデルアーキテクチャにわたる大規模な実験は、JUICEが新しい最先端のパフォーマンスと堅牢な一般化を設定し、さまざまな競合タイプの下で異なるドメイン間で重要な一貫性のある改善を実現していることを示している。
最後に,知識の衝突と文脈情報とパラメトリックメモリの重畳を理論的に解析し,これらの設定におけるJUICEの有効性をさらに解明する。
関連論文リスト
- Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models [42.776896363518844]
本研究では,メモリ内競合がLMのコンテキスト受容能力に及ぼす影響について検討した。
我々は、2つの知識衝突対策と、本質的に矛盾するデータを含む新しいデータセットであるDynamicQAを利用する。
我々は,単一真理値の事実と比較して,LMが動的事実とメモリ内衝突の程度が大きいことを検証した。
論文 参考訳(メタデータ) (2024-07-24T06:06:07Z) - Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models [18.2500350157507]
内部記憶と外部コンテキストは必然的に衝突し、言語モデル(LM)内の知識の衝突につながる
モデルパラメータを更新することなく、対立する注意を抑えることで、知識の衝突を効果的に軽減できるPatH PatcHing (PH3) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T08:34:41Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning [87.92209048521153]
出来事の時間的推論は、物語から2つ以上の出来事の間の時間的関係を特定することを目的としている。
知識の衝突は、コンテキスト内の事象の実際の時間的関係と、モデルによって学習された事前の知識やバイアスとの間にミスマッチがあるときに起こる。
論文 参考訳(メタデータ) (2023-05-24T10:04:06Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Entity-Based Knowledge Conflicts in Question Answering [29.973926661540524]
我々は、文脈情報が学習情報と矛盾する知識矛盾の問題を定式化する。
本稿では,幻覚を最小化し,分布外一般化を4%~7%改善するパラメトリック知識の過度依存を軽減する手法を提案する。
本研究は, 実践者が読解よりも幻覚の傾向を評価することの重要性を示し, 緩和戦略が情報進化への一般化を促進することを示すものである。
論文 参考訳(メタデータ) (2021-09-10T18:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。