論文の概要: Measuring Alignment-Induced Activation Shifts Correctly: A Template-Controlled Difference-in-Differences Protocol
- arxiv url: http://arxiv.org/abs/2605.24583v3
- Date: Sun, 31 May 2026 07:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.329604
- Title: Measuring Alignment-Induced Activation Shifts Correctly: A Template-Controlled Difference-in-Differences Protocol
- Title(参考訳): 配向誘起活性化シフトを正確に測定する:テンプレート制御差分差分プロトコル
- Authors: Yuki Nakamura,
- Abstract要約: この行列を形成するための明らかな方法を示す。
整列モデルはチャットテンプレートで評価され、ベースモデルは見なかった。
我々は、アライメントの活性化差研究のための測定勧告にそれを蒸留する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing a model's internal activations before and after alignment is a natural way to ask what safety training changes: one forms the matrix of paired aligned-minus-base activations on safety-relevant inputs and reads off its effective rank or top direction. We show the obvious way to form this matrix is confounded. The aligned model is evaluated under a chat template the base model never saw, so the naive difference conflates the alignment shift with chat formatting. We introduce a four-variant decomposition of the modification matrix (naive, template-controlled, within-aligned, and difference-in-differences, DiD) that separates the two effects. Template control alone removes a 2.0-3.9x inflation of the measured effective rank across Llama-3.1-8B, Gemma-2-9B, and Qwen-2.5-7B; the DiD contrast is what recovers the refusal direction of Arditi et al. (2024), lifting its cosine alignment from 0.18-0.39 to 0.50-0.86. Projection-ablation across the three families confirms the recovered subspace is behaviorally active and that singular-value order is not causal order. We validate the protocol on a controlled testbed and distill it into measurement recommendations for activation-difference studies of alignment.
- Abstract(参考訳): モデルの内部アクティベーションをアライメント前後に比較することは、安全トレーニングの変化を問う自然な方法である。
この行列を形成するための明らかな方法を示す。
アライメントモデルはチャットテンプレートで評価され、ベースモデルは見つからなかったので、ナイーブな違いはチャットフォーマッティングとアライメントシフトを混同する。
本稿では,2つの効果を分離する修正行列(ナイーブ,テンプレート制御,内部整合,差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を導入する。
テンプレート制御単独では、Llama-3.1-8B、Gemma-2-9B、Qwen-2.5-7Bにまたがる測定有効ランクの2.0-3.9倍のインフレーションを除去し、DiDコントラストは Arditi et al (2024) の拒絶方向を回復し、コサインアライメントを 0.18-0.39 から 0.50-0.86 に引き上げる。
3つの族にわたる射影アブレーションは、回復した部分空間が行動的に活発であり、特異値順序が因果順序ではないことを裏付ける。
制御されたテストベッド上でプロトコルを検証し,アライメントのアクティベーション差の研究のための測定レコメンデーションに蒸留する。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes [4.738949927143789]
隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
論文 参考訳(メタデータ) (2026-05-07T05:58:38Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis [0.0]
階層カーネル変換器(Hierarchical Kernel Transformer, HKT)は、訓練可能な因果ダウンサンプリングを通じてL解像度レベルでシーケンスを処理するマルチスケールアテンション機構である。
全計算コストは標準注意の4/3倍に制限され、L = 3 に対して 1.3125x に達する。
論文 参考訳(メタデータ) (2026-04-10T00:00:11Z) - The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams [0.0]
本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
論文 参考訳(メタデータ) (2026-03-28T21:19:58Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Krotov Type Optimization of Coherent and Incoherent Controls for Open
Two-Qubit Systems [77.34726150561087]
この研究は、コヒーレントかつ非コヒーレントな制御によって駆動される2量子ビットオープン量子系を考える。
インコヒーレント制御は、環境の時間依存スペクトル密度を介して時間依存のデコヒーレンス率を誘導する。
システムは、時間依存係数を持つゴリーニ・コサコフスキー・スダルシャン・リンドブラッド・マスター方程式に従って進化する。
論文 参考訳(メタデータ) (2023-08-11T13:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。