論文の概要: Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models
- arxiv url: http://arxiv.org/abs/2402.18154v1
- Date: Wed, 28 Feb 2024 08:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:44:33.802259
- Title: Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models
- Title(参考訳): 頭を切り離すことは対立を終わらせる:言語モデルにおける知識の衝突を解釈し緩和するメカニズム
- Authors: Zhuoran Jin, Pengfei Cao, Hongbang Yuan, Yubo Chen, Jiexin Xu, Huaijun
Li, Xiaojian Jiang, Kang Liu, Jun Zhao
- Abstract要約: 内部記憶と外部コンテキストは必然的に衝突し、言語モデル(LM)内の知識の衝突につながる
モデルパラメータを更新することなく、対立する注意を抑えることで、知識の衝突を効果的に軽減できるPatH PatcHing (PH3) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 18.2500350157507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, retrieval augmentation and tool augmentation have demonstrated a
remarkable capability to expand the internal memory boundaries of language
models (LMs) by providing external context. However, internal memory and
external context inevitably clash, leading to knowledge conflicts within LMs.
In this paper, we aim to interpret the mechanism of knowledge conflicts through
the lens of information flow, and then mitigate conflicts by precise
interventions at the pivotal point. We find there are some attention heads with
opposite effects in the later layers, where memory heads can recall knowledge
from internal memory, and context heads can retrieve knowledge from external
context. Moreover, we reveal that the pivotal point at which knowledge
conflicts emerge in LMs is the integration of inconsistent information flows by
memory heads and context heads. Inspired by the insights, we propose a novel
method called Pruning Head via PatH PatcHing (PH3), which can efficiently
mitigate knowledge conflicts by pruning conflicting attention heads without
updating model parameters. PH3 can flexibly control eight LMs to use internal
memory ($\uparrow$ 44.0%) or external context ($\uparrow$ 38.5%). Moreover, PH3
can also improve the performance of LMs on open-domain QA tasks. We also
conduct extensive experiments to demonstrate the cross-model, cross-relation,
and cross-format generalization of our method.
- Abstract(参考訳): 近年,言語モデル (LM) の内部メモリ境界を外部コンテキストで拡張する機能として,検索拡張とツール拡張が注目されている。
しかし、内部記憶と外部コンテキストは必然的に衝突し、LM内の知識の衝突につながる。
本稿では,情報フローのレンズを通して知識衝突のメカニズムを解釈し,その中心点における正確な介入によって紛争を緩和することを目的とする。
メモリヘッドは内部メモリから知識を思い出すことができ、コンテキストヘッドは外部コンテキストから知識を取得することができる。
さらに,LMにおいて知識の衝突が発生する重要なポイントは,記憶頭とコンテキストヘッドによる一貫性のない情報フローの統合であることも明らかにした。
この知見に触発されて,モデルパラメータを更新せずに衝突する注意ヘッドをプルーニングすることで,知識の衝突を効果的に軽減できる,パスパッチ(ph3)によるプルーニングヘッド(pruning head)という新しい手法を提案する。
PH3は8つのLMを柔軟に制御し、内部メモリ(44.0%)または外部コンテキスト(38.5%)を使用する。
さらに、PH3はオープンドメインQAタスクにおけるLMの性能を向上させることができる。
また, クロスモデル, クロス相関, クロスフォーマット一般化の実証実験を行った。
関連論文リスト
- Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。
これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文 参考訳(メタデータ) (2024-10-21T15:12:51Z) - Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
LLMは、中間層における知識衝突のシグナルを内部的に登録することができる。
我々は,事前訓練されたスパースオートエンコーダを用いた表現工学手法であるtextscSpAREを提案する。
論文 参考訳(メタデータ) (2024-10-21T13:30:47Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models [42.776896363518844]
本研究では,メモリ内競合がLMのコンテキスト受容能力に及ぼす影響について検討した。
我々は、2つの知識衝突対策と、本質的に矛盾するデータを含む新しいデータセットであるDynamicQAを利用する。
我々は,単一真理値の事実と比較して,LMが動的事実とメモリ内衝突の程度が大きいことを検証した。
論文 参考訳(メタデータ) (2024-07-24T06:06:07Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint [20.543282448771336]
本稿では,知識が相反するかどうかを識別し,解決するための適応的復号法を提案する。
実験により、COIECDは現実的なデータセットにおける知識の衝突に対して強い性能と堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2024-02-19T07:10:30Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。