論文の概要: How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models
- arxiv url: http://arxiv.org/abs/2604.04385v2
- Date: Tue, 07 Apr 2026 12:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 12:54:27.259912
- Title: How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models
- Title(参考訳): 調整経路:言語モデルにおけるポリシー回路のローカライズ、スケーリング、制御
- Authors: Gregory N. Frank,
- Abstract要約: 本稿では,アライメント学習言語モデルにおいて繰り返し発生するスパースルーティング機構について述べる。
政治的検閲と安全の拒絶を自然実験として使用し、このメカニズムは6つの実験室から9つのモデルにまたがって追跡される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper identifies a recurring sparse routing mechanism in alignment-trained language models: a gate attention head reads detected content and triggers downstream amplifier heads that boost the signal toward refusal. Using political censorship and safety refusal as natural experiments, the mechanism is traced across 9 models from 6 labs, all validated on corpora of 120 prompt pairs. The gate head passes necessity and sufficiency interchange tests (p < 0.001, permutation null), and core amplifier heads are stable under bootstrap resampling (Jaccard 0.92-1.0). Three same-generation scaling pairs show that routing distributes at scale (ablation up to 17x weaker) while remaining detectable by interchange. Modulating the detection-layer signal continuously controls policy strength from hard refusal through steering to factual compliance, with routing thresholds that vary by topic. The circuit also reveals a structural separation between intent recognition and policy routing: under cipher encoding, the gate head's interchange necessity collapses 70-99% across three models (n=120), and the model responds with puzzle-solving rather than refusal. The routing mechanism never fires, even though probe scores at deeper layers indicate the model begins to represent the harmful content. This asymmetry is consistent with different robustness properties of pretraining and post-training: broad semantic understanding versus narrower policy binding that generalizes less well under input transformation.
- Abstract(参考訳): ゲートアテンションヘッドは検出されたコンテンツを読み出し、下流のアンプヘッドをトリガーし、信号の拒絶を促す。
政治的検閲と安全性の拒絶を自然実験として使用し、120組のプロンプトペアのコーパスで検証された6つの実験室の9つのモデルで追跡される。
ゲートヘッドは必要かつ十分な交換試験(p < 0.001, permutation null)をパスし、コアアンプヘッドはブートストラップ再サンプリング(Jaccard 0.92-1.0)下で安定である。
3つの同世代のスケーリングペアは、ルーティングが大規模に分散し(最大17倍弱くなる)、インターチェンジによって検出可能であることを示している。
検出層信号の変調は、トピックによって異なるルーティングしきい値を用いて、ステアリングからファクトコンプライアンスに至るまで、ハードリファインからポリシー強度を継続的に制御する。
暗号符号化では、3つのモデル(n=120)でゲートヘッドの交換必要条件が70-99%崩壊し、モデルが拒絶ではなくパズル解決に応答する。
より深い層でのプローブスコアは、モデルが有害な内容を表現し始めたことを示しているが、ルーティングメカニズムは決して発火しない。
この非対称性は、事前学習と後学習の異なる頑健性特性と一致している: 入力変換においてあまりうまく一般化しない、より広い意味的理解とより狭いポリシーバインディングである。
関連論文リスト
- Reliable Control-Point Selection for Steering Reasoning in Large Language Models [28.288321095634128]
ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
論文 参考訳(メタデータ) (2026-04-02T14:48:56Z) - The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities [0.0]
PhishNChipsは、10の迅速な戦略に基づく11のモデルの研究である。
単一モデルのフィッシングバイパス速度は、設定方法によって1%未満から97%の範囲である。
高い予測信号に関するプロンプトの最適化により,ベンチマーク性能が向上することを示す。
論文 参考訳(メタデータ) (2026-03-26T05:48:37Z) - Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails [0.0]
自然実験として、中国語・オリジン語モデルにおける政治的検閲について研究する。
5つの実験室の9つのオープンウェイトモデルに対して、プローブ、外科的改善、行動テストを使用します。
論文 参考訳(メタデータ) (2026-03-18T20:54:34Z) - Directional Routing in Transformers [0.0]
指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
論文 参考訳(メタデータ) (2026-03-16T07:28:22Z) - Backdoor Directions in Vision Transformers [56.382912038371046]
本稿では,視覚変換器(ViT)におけるバックドアアタックの表現方法について検討する。
我々は、トリガーの内部表現に対応するモデルのアクティベーションにおいて、特定のトリガー方向'を識別する。
この方向を診断ツールとして使用して、バックドア機能が層間でどのように処理されるかを追跡する。
論文 参考訳(メタデータ) (2026-03-11T14:13:48Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics [2.4839105527363574]
本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
論文 参考訳(メタデータ) (2025-12-18T14:43:04Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。