論文の概要: Context Copying Modulation: The Role of Entropy Neurons in Managing Parametric and Contextual Knowledge Conflicts
- arxiv url: http://arxiv.org/abs/2509.10663v1
- Date: Fri, 12 Sep 2025 19:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.722744
- Title: Context Copying Modulation: The Role of Entropy Neurons in Managing Parametric and Contextual Knowledge Conflicts
- Title(参考訳): コンテキストコピー制御:パラメトリックおよび文脈知識紛争の管理におけるエントロピーニューロンの役割
- Authors: Zineddine Tighidet, Andrea Mogini, Hedi Ben-younes, Jiali Mei, Patrick Gallinari, Benjamin Piwowarski,
- Abstract要約: エントロピーニューロンは,幅広い言語モデルにまたがってコンテキストコピーを抑える役割を担っていることを示す。
これらの結果は、矛盾する情報を扱う際のLLMの内部ダイナミクスの理解を深める。
- 参考スコア(独自算出の注目度): 16.645800301676996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The behavior of Large Language Models (LLMs) when facing contextual information that conflicts with their internal parametric knowledge is inconsistent, with no generally accepted explanation for the expected outcome distribution. Recent work has identified in autoregressive transformer models a class of neurons -- called entropy neurons -- that produce a significant effect on the model output entropy while having an overall moderate impact on the ranking of the predicted tokens. In this paper, we investigate the preliminary claim that these neurons are involved in inhibiting context copying behavior in transformers by looking at their role in resolving conflicts between contextual and parametric information. We show that entropy neurons are responsible for suppressing context copying across a range of LLMs, and that ablating them leads to a significant change in the generation process. These results enhance our understanding of the internal dynamics of LLMs when handling conflicting information.
- Abstract(参考訳): 大きな言語モデル(LLM)の振る舞いは、内部のパラメトリック知識と矛盾する文脈情報に直面すると矛盾する。
最近の研究は、自己回帰トランスフォーマーモデル(エントロピーニューロンと呼ばれる)において、予測されたトークンのランキングに全体的に適度な影響を与えながら、モデル出力エントロピーに重要な影響を及ぼすニューロン群を同定している。
本稿では,これらのニューロンがコンテクスト情報とパラメトリック情報の衝突を解消する役割を考察することにより,トランスフォーマにおける文脈模倣行動の抑制に関与しているという予備的主張を考察する。
エントロピーニューロンは、LLMの様々な範囲にわたるコンテキストコピーを抑制し、それらを非難することで生成過程に大きな変化をもたらすことを示す。
これらの結果は、矛盾する情報を扱う際のLLMの内部ダイナミクスの理解を深める。
関連論文リスト
- Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。
本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - Generative Intervention Models for Causal Perturbation Modeling [80.72074987374141]
多くの応用において、システムのメカニズムが外部の摂動によって変更されるかは未定である。
本稿では、これらの摂動特徴を原子間干渉による分布にマッピングする方法を学習する生成的介入モデル(GIM)を提案する。
論文 参考訳(メタデータ) (2024-11-21T10:37:57Z) - Modularity in Transformers: Investigating Neuron Separability & Specialization [0.0]
トランスフォーマーモデルは様々なアプリケーションでますます普及していますが、内部動作に対する我々の理解は限定的です。
本稿では、視覚(ViT)モデルと言語(Mistral 7B)モデルの両方に着目し、トランスフォーマーアーキテクチャ内のニューロンのモジュラリティとタスクの特殊化について検討する。
選択的プルーニングとMoEficationクラスタリングの組み合わせを用いて、異なるタスクやデータサブセットにわたるニューロンの重複と特殊化を分析する。
論文 参考訳(メタデータ) (2024-08-30T14:35:01Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。