論文の概要: An Effective-Rank Audit of Alignment-Induced Activation Shifts: Confound Control, Constructive Calibration, and Limits
- arxiv url: http://arxiv.org/abs/2605.24583v2
- Date: Wed, 27 May 2026 11:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.9663
- Title: An Effective-Rank Audit of Alignment-Induced Activation Shifts: Confound Control, Constructive Calibration, and Limits
- Title(参考訳): 配向誘起活性化シフトの効果的評価:共振制御, 構成校正, 限界
- Authors: Yuki Nakamura,
- Abstract要約: 我々は3つのオープンウェイト命令調整LDMの残差ストリーム活性化のアライメントによる変化を監査する。
rho_eps := rank_eps(M_Ds)/d は Arditi et al. (2024) の単一拒絶方向観測を連続量として定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We audit alignment-induced shifts in residual-stream activations of three open-weight instruction-tuned LLMs (Llama-3.1-8B-Instruct, Gemma-2-9B-it, Qwen-2.5-7B-Instruct) using the effective rank of the alignment modification matrix on safety-relevant inputs, rho_eps := rank_eps(M_Ds)/d, which formalizes the single-refusal-direction observation of Arditi et al. (2024) as a continuous quantity. The paper has three contributions. (1) Confound-controlled measurement: a four-variant decomposition (M_naive, M_template, M_aligned, M_DiD) separates chat-template formatting, alignment-stage shift, and the refusal-mediating direction, and recovers the Arditi refusal direction on M_DiD at |cos| in {0.77, 0.86, 0.50} (Llama/Gemma/Qwen); chat-template-controlled rho_eps is {0.0029, 0.0048, 0.0044}, and the centered SVD residual is 4-7x larger. (2) Constructive calibration on a 3-layer MLP across rho_eps in {0.008, 0.17, 0.33, 0.40} exhibits a sweet-spot vs. brittle distinction: mild rank-maximization (lambda=5) buys ablation robustness, while strong regularization at the same nominal rho_eps (lambda=50) does not. rho_eps is a diagnostic for fragility, not a target whose mechanical inflation buys robustness. (3) Limits of rank-based diagnostics: (a) not safety-specific (LRH baseline is 2-3x the safety value); (b) SVD principal ordering does not match causal ordering (Llama u_2 inert despite ranking second; cumulative ablation non-monotone at k=5); (c) the spectral-gap hypothesis required to upgrade the O(rho_eps * d) achievability bound to a matching Mirsky-route lower bound fails empirically (1/90 Llama layer-reference pairs, 0/36 MLP combinations) and structurally (kappa_lb <= 2/(eps * r)). The matching lower bound remains an open problem.
- Abstract(参考訳): Arditi et al (2024) の単一遅延方向観測を定式化した rho_eps := rank_eps(M_Ds)/d のアライメント修飾行列の有効ランクを用いて、3つのオープンウェイト命令調整 LLM (Llama-3.1-8B-Instruct, Gemma-2-9B-it, Qwen-2.5-7B-Instruct) の残差ストリーム活性化を監査した。
論文には3つの貢献がある。
1) 4変量分解(M_naive,M_template,M_aligned,M_DiD)は、チャットテンプレートフォーマット、アライメントステージシフト、リトライメディア方向を分離し、0.77,0.86,0.50} (Llama/Gemma/Qwen); チャットテンプレート制御されたrho_epsは0.0029,00048,00044} で、中心のSVD残差は4〜7倍である。
2) {0.008, 0.17, 0.33, 0.40} の rho_eps にまたがる3層 MLP 上の構成的校正は、甘味と脆さの区別を示す: 軽度階数最大化 (lambda=5) はアブレーションロバスト性を取得するが、同じ名目 rho_eps (lambda=50) における強い正則化 (lambda=50) は、そうではない。
rho_epsは、不安定性の診断であり、機械的インフレーションが堅牢性を買うターゲットではない。
(3)階級別診断の限界
(a)安全特有でない(LRHベースラインは安全性値の2~3倍)
(b)SVD主順序付けは因果順序と一致しない(ランク2のにもかかわらずLlama u_2 inert、k=5の累積アブレーションノンモノトン)
(c)O(rho_eps *)のアップグレードに必要なスペクトルギャップ仮説
d) 一致するミルスキールートの下界に束縛された達成性は、経験的に失敗する(1/90 Llama層参照対、0/36 MLP結合)、構造的に失敗する(kappa_lb <= 2/(eps * r))。
一致する下界は依然として開問題である。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes [4.738949927143789]
隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
論文 参考訳(メタデータ) (2026-05-07T05:58:38Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis [0.0]
階層カーネル変換器(Hierarchical Kernel Transformer, HKT)は、訓練可能な因果ダウンサンプリングを通じてL解像度レベルでシーケンスを処理するマルチスケールアテンション機構である。
全計算コストは標準注意の4/3倍に制限され、L = 3 に対して 1.3125x に達する。
論文 参考訳(メタデータ) (2026-04-10T00:00:11Z) - The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams [0.0]
本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
論文 参考訳(メタデータ) (2026-03-28T21:19:58Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Krotov Type Optimization of Coherent and Incoherent Controls for Open
Two-Qubit Systems [77.34726150561087]
この研究は、コヒーレントかつ非コヒーレントな制御によって駆動される2量子ビットオープン量子系を考える。
インコヒーレント制御は、環境の時間依存スペクトル密度を介して時間依存のデコヒーレンス率を誘導する。
システムは、時間依存係数を持つゴリーニ・コサコフスキー・スダルシャン・リンドブラッド・マスター方程式に従って進化する。
論文 参考訳(メタデータ) (2023-08-11T13:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。