論文の概要: Manifold-Guided Attention Steering
- arxiv url: http://arxiv.org/abs/2605.21770v1
- Date: Wed, 20 May 2026 22:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.496165
- Title: Manifold-Guided Attention Steering
- Title(参考訳): マニフォールドガイドアテンションステアリング
- Authors: Ian Li, Kapilesh Guruprasad, Raunak Sengupta, Ninad Satish, Loris D'Antoni, Rose Yu,
- Abstract要約: 幾何学的観測に基づく軌道認識推論時間介入を提案する。
特定の注目ヘッドの出力活性化は、誤差点における低次元の正しさ多様体から発散する。
学習しきい値を超えた場合の目標投影補正を適用し、誤差が伝播する前に注意出力を正しい部分空間に戻す。
- 参考スコア(独自算出の注目度): 23.05277076113183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently produce errors in reasoning tasks despite possessing the underlying knowledge required for correct reasoning. One possible approach to improve reasoning consistency is through activation steering. However, existing activation steering approaches apply fixed, pre-computed correction vectors, ignoring where the model currently sits along its generation trajectory; the result is indiscriminate perturbation that disrupts already-correct steps as freely as erroneous ones. We propose Manifold-Guided Attention Steering (MAGS), a trajectory-aware inference-time intervention grounded in a geometric observation: the output activations of specific attention heads diverge from a low-dimensional correctness manifold at the point of error, and this deviation compounds through subsequent steps. For each identified attention head, we learn a low-dimensional subspace from contrastive pairs of correct and incorrect traces that capture the directions along which error behavior deviates from correct behavior. During inference, we monitor each head's proximity to this manifold and apply a targeted projection correction when deviation exceeds a learned threshold, steering the attention output back toward the correct subspace before the error propagates. MAGS consistently outperforms both unsteered baselines and static steering approaches across benchmarks spanning mathematical reasoning (MATH-500, GSM8K), code generation (HumanEval, MBPP), and molecular generation (SMILES), suggesting that correctness manifolds are a general feature of LLM attention geometry.
- Abstract(参考訳): 大規模言語モデルは、正しい推論に必要な基礎知識があるにもかかわらず、しばしば推論タスクでエラーを発生させる。
推論整合性を改善するための1つの可能なアプローチは、アクティベーションステアリングである。
しかし、既存のアクティベーションステアリングアプローチでは、モデルが生成軌道に沿って現在どこにあるかを無視し、固定された事前計算された補正ベクトルを適用している。
本稿では,幾何学的観測に基づく軌道認識型推定時間介入であるmanifold-Guided Attention Steering (MAGS)を提案する。
同定された注目ヘッドごとに、誤り行動が正しい行動から逸脱する方向を捉えるために、逆の正と誤の痕跡の対から低次元の部分空間を学習する。
推定中、各頭部のこの多様体との近接をモニタし、偏差が学習しきい値を超えた場合の目標投影補正を適用し、誤差が伝播する前に注意出力を正しい部分空間に戻す。
MAGSは、数学的推論(MATH-500, GSM8K)、コード生成(HumanEval, MBPP)、分子生成(SMILES)にまたがるベンチマークにおいて、非ステアベースラインと静的ステアリングのアプローチを一貫して上回り、正しさ多様体がLLMアテンション幾何学の一般的な特徴であることを示唆している。
関連論文リスト
- Minimizing Collateral Damage in Activation Steering [26.274685653829792]
アクティベーションステアリング(英: Activation steering)とは、言語モデル(LLM)の動作を制御する手法である。
ベクトル付加のような標準的な介入は、しばしば他の標的でない特徴方向に沿った活性化のアライメントに意図しない変化を引き起こす。
本研究では, 協調的損傷を数学的に定式化し, ステアリングを制約付き最適化問題としてモデル化する原理的枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-01T23:52:54Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Mitigating Cognitive Inertia in Large Reasoning Models via Latent Spike Steering [12.332146893333949]
大規模推論モデル(LRM)は、テスト時間計算をスケールすることで、優れた性能を実現している。
LRMは、しばしば認知的慣性(動作慣性)または剛性(方向慣性)のどちらかを過度に考える失敗パターンである認知的慣性(Cognitive Inertia)に悩まされる。
論文 参考訳(メタデータ) (2026-01-30T02:47:12Z) - Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - Convergent Linear Representations of Emergent Misalignment [1.3286418032136589]
微調整された大きな言語モデルは、広範に不整合な振る舞いを発達させる可能性がある。
9個のランク1アダプターでQwen2.5-14B-インストラクタを異常に除去するミニマルモデル生物について検討した。
論文 参考訳(メタデータ) (2025-06-13T09:39:54Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。