論文の概要: How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models
- arxiv url: http://arxiv.org/abs/2604.04385v3
- Date: Mon, 13 Apr 2026 16:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.564363
- Title: How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models
- Title(参考訳): 調整経路:言語モデルにおけるポリシー回路のローカライズ、スケーリング、制御
- Authors: Gregory N. Frank,
- Abstract要約: 本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper localizes the policy routing mechanism in alignment-trained language models. An intermediate-layer attention gate reads detected content and triggers deeper amplifier heads that boost the signal toward refusal. In smaller models the gate and amplifier are single heads; at larger scale they become bands of heads across adjacent layers. The gate contributes under 1% of output DLA, but interchange testing (p<0.001) and knockout cascade confirm it is causally necessary. Interchange screening at n>=120 detects the same motif in twelve models from six labs (2B to 72B), though specific heads differ by lab. Per-head ablation weakens up to 58x at 72B and misses gates that interchange identifies; interchange is the only reliable audit at scale. Modulating the detection-layer signal continuously controls policy from hard refusal through evasion to factual answering. On safety prompts the same intervention turns refusal into harmful guidance, showing the safety-trained capability is gated by routing rather than removed. Thresholds vary by topic and by input language, and the circuit relocates across generations within a family while behavioral benchmarks register no change. Routing is early-commitment: the gate commits at its own layer before deeper layers finish processing the input. Under an in-context substitution cipher, gate interchange necessity collapses 70 to 99% across three models and the model switches to puzzle-solving. Injecting the plaintext gate activation into the cipher forward pass restores 48% of refusals in Phi-4-mini, localizing the bypass to the routing interface. A second method, cipher contrast analysis, uses plain/cipher DLA differences to map the full cipher-sensitive routing circuit in O(3n) forward passes. Any encoding that defeats detection-layer pattern matching bypasses the policy regardless of whether deeper layers reconstruct the content.
- Abstract(参考訳): 本稿では,アライメント学習言語モデルにおけるポリシルーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、信号が拒絶に向かって押し上げられるディープアンプヘッドをトリガーする。
より小さなモデルでは、ゲートとアンプは単一のヘッドであり、より大きなスケールでは隣接する層にまたがるヘッドのバンドになる。
ゲートは出力DLAの1%以下で寄与するが、インターチェンジテスト(p<0.001)とノックアウトカスケードは因果的に必要であることを確認した。
n>=120のインターチェンジスクリーニングは、6つの実験室(2Bから72B)から12のモデルで同じモチーフを検出するが、特定の頭部は実験室によって異なる。
首ごとのアブレーションは、72Bで58倍まで弱まり、インターチェンジが識別するゲートを見逃す。
検出層信号の変調は、回避から事実応答に至るまで、ハードリファインからポリシーを継続的に制御する。
安全について、同じ介入が拒否を有害なガイダンスに変え、安全訓練された能力が取り除かれるのではなく、ルーティングによって促進されることを示す。
閾値はトピックや入力言語によって異なり、回路は家族内の世代間で移動し、行動ベンチマークは変更を登録しない。
ルーティングは早期コミットであり、より深いレイヤが入力処理を完了する前に、ゲートは独自のレイヤにコミットする。
文脈内置換暗号の下では、3つのモデル間でゲート交換の必要性は70~99%崩壊し、モデルがパズル解決に切り替わる。
暗号フォワードパスに平文ゲートのアクティベーションを注入すると、Phi-4-miniでの拒絶の48%が復元され、ルーティングインターフェースへのバイパスがローカライズされる。
第2の手法である暗号コントラスト解析では、O(3n)フォワードパスの完全な暗号感度ルーティング回路をマッピングするために、プレーン/暗号DLA差分を用いる。
検出層パターンマッチングを破るエンコーディングは、より深いレイヤがコンテンツを再構成するかどうかに関わらず、ポリシーをバイパスする。
関連論文リスト
- Reliable Control-Point Selection for Steering Reasoning in Large Language Models [28.288321095634128]
ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
論文 参考訳(メタデータ) (2026-04-02T14:48:56Z) - The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities [0.0]
PhishNChipsは、10の迅速な戦略に基づく11のモデルの研究である。
単一モデルのフィッシングバイパス速度は、設定方法によって1%未満から97%の範囲である。
高い予測信号に関するプロンプトの最適化により,ベンチマーク性能が向上することを示す。
論文 参考訳(メタデータ) (2026-03-26T05:48:37Z) - Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails [0.0]
自然実験として、中国語・オリジン語モデルにおける政治的検閲について研究する。
5つの実験室の9つのオープンウェイトモデルに対して、プローブ、外科的改善、行動テストを使用します。
論文 参考訳(メタデータ) (2026-03-18T20:54:34Z) - Directional Routing in Transformers [0.0]
指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
論文 参考訳(メタデータ) (2026-03-16T07:28:22Z) - Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics [2.4839105527363574]
本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
論文 参考訳(メタデータ) (2025-12-18T14:43:04Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。