論文の概要: How LLMs Are Persuaded: A Few Attention Heads, Rerouted
- arxiv url: http://arxiv.org/abs/2605.09314v1
- Date: Sun, 10 May 2026 04:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.18612
- Title: How LLMs Are Persuaded: A Few Attention Heads, Rerouted
- Title(参考訳): LLMがいかに説得されたか: 注意を喚起する頭
- Authors: Xiangkun Sun, Lingkai Kong, Aoqi Zhang, Liang Zeng, Tonghan Wang,
- Abstract要約: 言語モデルは、事実の知識を捨てるよう説得することができる。
この脆弱性はAIの安全性の中心であるが、内部メカニズムはまだ理解されていない。
我々は、説得誘発事実誤りの因果関係をコンパクトに解明する。
- 参考スコア(独自算出の注目度): 14.942277949005549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be persuaded to abandon factual knowledge. This vulnerability is central to AI safety, but its internal mechanism remains poorly understood. We uncover a compact causal mechanism for persuasion-induced factual errors. A small set of mid-layer attention heads almost entirely determines the model's answer. These heads write answer options into a low-dimensional polyhedron, with options occupying distinct vertices. Persuasion does not blur belief or merely reduce confidence; it causes a discrete latent jump from the correct-answer vertex to the persuasion-target vertex. We show that decision heads are not reasoning over evidence. Instead, they copy whichever option token their attention selects. Persuasion works by redirecting attention. We isolate a rank-one evidence-routing feature that controls the route. Directly modifying this feature steers the model's choice, and removing it blocks persuasion. We then trace the feature back to a band of shallower attention heads that build it from persuasive keywords in the input. Every step is validated by intervention. This mechanism appears across open-source LLMs and realistic poisoning scenarios such as Generative Engine Optimization, revealing persuasion as a narrow, monitorable circuit.
- Abstract(参考訳): 言語モデルは、事実の知識を捨てるよう説得することができる。
この脆弱性はAIの安全性の中心であるが、内部メカニズムはまだ理解されていない。
我々は、説得誘発事実誤りの因果関係をコンパクトに解明する。
中層アテンションヘッドの小さなセットは、ほぼ完全にモデルの答えを決定する。
これらのヘッドは答えの選択肢を低次元のポリヘドロンに書き込む。
説得は信念を曖昧にしたり、単に信頼を低下させるものではない。
私たちは、意思決定の責任者が証拠を推論していないことを示します。
代わりに、どのオプションがアテンションの選択をトークンするかをコピーする。
説得は注意を向けて行う。
ルートを制御できるランクワンのエビデンスルーティング機能を分離する。
この機能を直接変更することは、モデルの選択をコントロールし、説得をブロックする。
そして、その特徴を、入力中の説得力のあるキーワードから構築する、より浅い注意のヘッドのバンドに遡る。
すべてのステップは介入によって検証されます。
このメカニズムは、オープンソースのLCMとGenerative Engine Optimizationのような現実的な中毒シナリオにまたがって現れ、狭く監視可能な回路として説得力を明らかにする。
関連論文リスト
- Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [25.870593499694092]
推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
我々は、過剰に短い推論の問題を軽減するために、シンプルだが効果的な重み付けアプローチであるThinkEditを紹介した。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。