論文の概要: Tracing Facts or just Copies? A critical investigation of the Competitions of Mechanisms in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.11809v1
- Date: Wed, 16 Jul 2025 00:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.186358
- Title: Tracing Facts or just Copies? A critical investigation of the Competitions of Mechanisms in Large Language Models
- Title(参考訳): ファクトの追跡か単にコピーか? : 大規模言語モデルにおけるメカニズムの競合に関する批判的研究
- Authors: Dante Campregher, Yanxu Chen, Sander Hoffman, Maria Heuss,
- Abstract要約: 提案手法は, 提案手法を適用せず, 一般の複写抑制により, 実物出力を促進させるアテンションヘッドが実現可能であることを示す。
より大型のモデルでは、より専門的でカテゴリーに敏感なパターンが示される。
- 参考スコア(独自算出の注目度): 1.0058542892457312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a reproducibility study examining how Large Language Models (LLMs) manage competing factual and counterfactual information, focusing on the role of attention heads in this process. We attempt to reproduce and reconcile findings from three recent studies by Ortu et al., Yu, Merullo, and Pavlick and McDougall et al. that investigate the competition between model-learned facts and contradictory context information through Mechanistic Interpretability tools. Our study specifically examines the relationship between attention head strength and factual output ratios, evaluates competing hypotheses about attention heads' suppression mechanisms, and investigates the domain specificity of these attention patterns. Our findings suggest that attention heads promoting factual output do so via general copy suppression rather than selective counterfactual suppression, as strengthening them can also inhibit correct facts. Additionally, we show that attention head behavior is domain-dependent, with larger models exhibiting more specialized and category-sensitive patterns.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) が競合する事実情報と反事実情報をどのように管理しているかを再現性調査し,このプロセスにおける注目の役割に着目した。
我々はOrtu et al , Yu, Merullo, and Pavlick and McDougall et al の3つの最近の研究から得られた知見を再現し、再現しようと試みている。
本研究は,注目頭部強度と実測出力比の関係を特に検討し,注目頭部の抑制機構に関する競合仮説を評価し,これらの注意パターンの領域特異性について検討した。
本研究は, 実効性向上に寄与するアテンションヘッドが, 選択的反実性抑制ではなく, 一般の複製抑制によって達成されることを示唆する。
さらに、注目頭部の挙動はドメイン依存であり、より大きなモデルはより専門的でカテゴリーに敏感なパターンを示す。
関連論文リスト
- On the Generalizability of "Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals" [0.8621608193534839]
我々は,「メカニズムの競争:言語モデルがファクトとカウンターファクトをどう扱うかの追跡」の研究を再現する。
事実的リコールと対実的インコンテキスト反復の間の言語モデルにおけるメカニズムについて検討する。
We found that the attention head ablation proposed in Ortu et al. (2024) is not effective for the domain are underrepresented in their dataset。
論文 参考訳(メタデータ) (2025-06-28T18:29:19Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [47.764552063499046]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Systematic Outliers in Large Language Models [41.2150163753952]
外乱はLarge Language Models (LLM) で広く観測されている。
LLMの生成過程,根本原因,機能について詳細な解析を行った。
論文 参考訳(メタデータ) (2025-02-10T12:54:17Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。
長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。
本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文 参考訳(メタデータ) (2023-03-21T15:12:20Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - On Causally Disentangled Representations [18.122893077772993]
本稿では,不整合因果過程の概念を用いて,不整合表現の分析を行う。
我々の測定値が不整合因果過程のデシダラタを捉えていることが示される。
本研究では,このメトリクスとデータセットを用いて,非絡み合った表現学習者の状態に関する実証的研究を行い,因果的視点から評価する。
論文 参考訳(メタデータ) (2021-12-10T18:56:27Z) - Towards Causal Representation Learning [96.110881654479]
機械学習とグラフィカル因果関係の2つの分野が生まれ、別々に発展した。
現在、他分野の進歩の恩恵を受けるために、クロスポリン化と両方の分野への関心が高まっている。
論文 参考訳(メタデータ) (2021-02-22T15:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。