論文の概要: Sycophancy Hides Linearly in the Attention Heads
- arxiv url: http://arxiv.org/abs/2601.16644v1
- Date: Fri, 23 Jan 2026 11:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.642772
- Title: Sycophancy Hides Linearly in the Attention Heads
- Title(参考訳): Sycophancyは、注意の頭の中にリニアに隠す
- Authors: Rifo Genadi, Munachiso Nwadike, Nurdaulet Mukhituly, Hilal Alquabeh, Tatsuya Hiraoka, Kentaro Inui,
- Abstract要約: 正誤シコファンシー信号は、マルチヘッドアテンションアクティベーションにおいて最も線形に分離可能である。
我々は、残留ストリーム、多層パーセプトロン(MLP)、アテンション層を横断する線形プローブを訓練し、これらの信号がどこに現れるかを分析する。
- 参考スコア(独自算出の注目度): 26.373090085794036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We find that correct-to-incorrect sycophancy signals are most linearly separable within multi-head attention activations. Motivated by the linear representation hypothesis, we train linear probes across the residual stream, multilayer perceptron (MLP), and attention layers to analyze where these signals emerge. Although separability appears in the residual stream and MLPs, steering using these probes is most effective in a sparse subset of middle-layer attention heads. Using TruthfulQA as the base dataset, we find that probes trained on it transfer effectively to other factual QA benchmarks. Furthermore, comparing our discovered direction to previously identified "truthful" directions reveals limited overlap, suggesting that factual accuracy, and deference resistance, arise from related but distinct mechanisms. Attention-pattern analysis further indicates that the influential heads attend disproportionately to expressions of user doubt, contributing to sycophantic shifts. Overall, these findings suggest that sycophancy can be mitigated through simple, targeted linear interventions that exploit the internal geometry of attention activations.
- Abstract(参考訳): 本研究は, マルチヘッドアテンションアクティベーションにおいて, 正誤シコファンシー信号が最も線形に分離可能であることを示す。
線形表現仮説により、残留ストリーム、多層パーセプトロン(MLP)、アテンション層を横切る線形プローブを訓練し、これらの信号がどこに現れるかを分析する。
残留流とMLPに分離性は現れるが、これらのプローブを用いたステアリングは中層アテンションヘッドのスパースサブセットに最も有効である。
TruthfulQAをベースデータセットとして、トレーニングされたプローブが、他の実測的なQAベンチマークに効果的に転送されることが分かりました。
さらに, 従来同定されていた「真実」の方向と比較すると, 重なり合いは限定的であり, 事実的正確性や推論抵抗は, 関連性はあるものの, 異なるメカニズムから生じることが示唆された。
注意パターン分析により, 影響力のある頭部は, ユーザの疑念の表現に不相応に参加し, サイコファンティックシフトに寄与することが示唆された。
これらの結果から, サイコファンシーは, 注意活性化の内部形状を生かした, 単純で標的とした線形介入によって緩和可能であることが示唆された。
関連論文リスト
- Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Utilizing Causal Network Markers to Identify Tipping Points ahead of Critical Transition [6.7741619010943]
本稿では因果性指標を取り入れた因果性ネットワークマーカー(CNM)の枠組みを提案する。
臨界遷移に先立って先端点を検出し同定するために、2つのマーカーを設計する。
応用の最も可能性の高い方向は、臨床疾患の尖点の同定である。
論文 参考訳(メタデータ) (2024-12-19T05:10:47Z) - Attention layers provably solve single-location regression [12.355792442566681]
Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。
本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:28:02Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。