論文の概要: Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models
- arxiv url: http://arxiv.org/abs/2402.18154v1
- Date: Wed, 28 Feb 2024 08:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:44:33.802259
- Title: Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models
- Title(参考訳): 頭を切り離すことは対立を終わらせる:言語モデルにおける知識の衝突を解釈し緩和するメカニズム
- Authors: Zhuoran Jin, Pengfei Cao, Hongbang Yuan, Yubo Chen, Jiexin Xu, Huaijun
Li, Xiaojian Jiang, Kang Liu, Jun Zhao
- Abstract要約: 内部記憶と外部コンテキストは必然的に衝突し、言語モデル(LM)内の知識の衝突につながる
モデルパラメータを更新することなく、対立する注意を抑えることで、知識の衝突を効果的に軽減できるPatH PatcHing (PH3) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 18.2500350157507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, retrieval augmentation and tool augmentation have demonstrated a
remarkable capability to expand the internal memory boundaries of language
models (LMs) by providing external context. However, internal memory and
external context inevitably clash, leading to knowledge conflicts within LMs.
In this paper, we aim to interpret the mechanism of knowledge conflicts through
the lens of information flow, and then mitigate conflicts by precise
interventions at the pivotal point. We find there are some attention heads with
opposite effects in the later layers, where memory heads can recall knowledge
from internal memory, and context heads can retrieve knowledge from external
context. Moreover, we reveal that the pivotal point at which knowledge
conflicts emerge in LMs is the integration of inconsistent information flows by
memory heads and context heads. Inspired by the insights, we propose a novel
method called Pruning Head via PatH PatcHing (PH3), which can efficiently
mitigate knowledge conflicts by pruning conflicting attention heads without
updating model parameters. PH3 can flexibly control eight LMs to use internal
memory ($\uparrow$ 44.0%) or external context ($\uparrow$ 38.5%). Moreover, PH3
can also improve the performance of LMs on open-domain QA tasks. We also
conduct extensive experiments to demonstrate the cross-model, cross-relation,
and cross-format generalization of our method.
- Abstract(参考訳): 近年,言語モデル (LM) の内部メモリ境界を外部コンテキストで拡張する機能として,検索拡張とツール拡張が注目されている。
しかし、内部記憶と外部コンテキストは必然的に衝突し、LM内の知識の衝突につながる。
本稿では,情報フローのレンズを通して知識衝突のメカニズムを解釈し,その中心点における正確な介入によって紛争を緩和することを目的とする。
メモリヘッドは内部メモリから知識を思い出すことができ、コンテキストヘッドは外部コンテキストから知識を取得することができる。
さらに,LMにおいて知識の衝突が発生する重要なポイントは,記憶頭とコンテキストヘッドによる一貫性のない情報フローの統合であることも明らかにした。
この知見に触発されて,モデルパラメータを更新せずに衝突する注意ヘッドをプルーニングすることで,知識の衝突を効果的に軽減できる,パスパッチ(ph3)によるプルーニングヘッド(pruning head)という新しい手法を提案する。
PH3は8つのLMを柔軟に制御し、内部メモリ(44.0%)または外部コンテキスト(38.5%)を使用する。
さらに、PH3はオープンドメインQAタスクにおけるLMの性能を向上させることができる。
また, クロスモデル, クロス相関, クロスフォーマット一般化の実証実験を行った。
関連論文リスト
- LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Discerning and Resolving Knowledge Conflicts through Adaptive Decoding
with Contextual Information-Entropy Constraint [21.767987104567485]
本稿では,知識が相反するかどうかを識別し,解決するための適応的復号法を提案する。
実験により、COIECDは現実的なデータセットにおける知識の衝突に対して強い性能と堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2024-02-19T07:10:30Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for
Hallucination Mitigation in Large Language Models [73.93616728895401]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Understanding AI Cognition: A Neural Module for Inference Inspired by
Human Memory Mechanisms [10.094090483211966]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、作業と長期記憶から構成され、後者は、より蓄積された知識と経験を保持するために高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large
Language Models in Knowledge Conflicts [21.34852490049787]
本稿では,大規模言語モデル(LLM)の知識衝突時の行動に関する包括的かつ制御された最初の調査について述べる。
LLMは, パラメトリックメモリと矛盾しても, 外部の証拠に対して高い受容性を有することが判明した。
一方、LCMは、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。