論文の概要: Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs
- arxiv url: http://arxiv.org/abs/2604.27401v1
- Date: Thu, 30 Apr 2026 04:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.92085
- Title: Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs
- Title(参考訳): 摂動探査:配向LLMにおけるFFN動作回路の2パス毎プロンプト検出
- Authors: Hongliang Liu, Tung-Ling Li, Yuhao Wu,
- Abstract要約: 摂動探索は、大規模言語モデルにおけるFFNニューロンに対するタスク特異的因果仮説を生成する。
8つの動作回路、13のモデル、および4つのアーキテクチャファミリにまたがって、LLMの動作を整理する2つの回路構造を同定する。
- 参考スコア(独自算出の注目度): 9.127363793428119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight behavioral circuits, 13 models, and four architecture families, we identify two circuit structures that organize LLM behavior. Opposition circuits appear when RLHF suppresses a pre-training tendency. In safety refusal, about 50 neurons, or 0.014 percent of all neurons, control the refusal template; ablating them changes 80 percent of response formats on 520 AdvBench prompts while producing near-zero harmful compliance, 3 of 520 cases, all with disclaimers. Routing circuits appear for pre-training behaviors distributed through attention. For language selection, residual-stream direction injection switches English to Chinese output on 99.1 percent of 580 benchmark prompts in the 3 of 19 tested models that satisfy three observed conditions: bilingual training, FFN-to-skip signal ratio between 0.3 and 1.1, and linear representability. The same intervention fails on the other 16 models and on math, code, and factual circuits, defining the limits of directional steering. The FFN-to-skip signal ratio, computed from the same two forward passes, distinguishes the two structures and predicts the appropriate intervention. Circuit topology varies by architecture, from Qwen's concentrated FFN bottleneck to Gemma's normalization-shielded circuit. In Qwen3.5-2B, ablating 20 neurons eliminates multi-turn sycophantic capitulation, while amplifying 10 related neurons improves factual correction from 52 percent to 88 percent on 200 TruthfulQA prompts. These results show that perturbation probing offers mechanistic insight into RLHF-organized behavior and a practical toolkit for precision template-layer editing.
- Abstract(参考訳): Perturbation Probing は、プロンプト毎に2つの前方通過とバックプロパゲーションのない大きな言語モデルにおいて、FFNニューロンのタスク特異的因果仮説を生成し、その後、全ての特定されたニューロンに1回の介入で約150のパスが償還される。
8つの動作回路、13のモデル、および4つのアーキテクチャファミリにまたがって、LLMの動作を整理する2つの回路構造を同定する。
RLHFが事前学習傾向を抑制すると、対位回路が現れる。
安全上の拒絶では、約50ニューロン、または全ニューロンの0.01パーセントが拒絶テンプレートを制御し、520 AdvBenchの応答フォーマットの80%が変更され、ほぼゼロに近い有害なコンプライアンスが生じる。
ルーティング回路は、注意を通して分散された事前学習動作に現れる。
言語選択では、580ベンチマークの99.1%で英語と中国語の出力を切り替え、バイリンガルトレーニング、FFN-to-skip信号比0.3から1.1、線形表現性という3つの条件を満たす19の試験モデルのうちの3つのモデルのうち、3つは580ベンチマークのプロンプトである。
同じ介入は、他の16モデルや数学、コード、事実回路で失敗し、方向制御の限界を定義する。
FFN-to-skip信号比は同じ2つのフォワードパスから計算され、2つの構造を区別し、適切な干渉を予測する。
回路トポロジーはアーキテクチャによって異なり、Qwenの集中型FFNボトルネックからGemmaの正規化シールド回路まで様々である。
Qwen3.5-2Bでは、20個のニューロンを非難することで、多ターンのサイコファン性降伏を排除し、10個の関連ニューロンを増幅すると、200個のTrathfulQAプロンプトで52%から88%に修正される。
これらの結果から,摂動探索はRLHFの組織的挙動に関する力学的な洞察を与え,テンプレート層編集のための実用的ツールキットを提供することが示された。
関連論文リスト
- Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation [0.0]
自己回帰言語モデルにおける幻覚は非対称的な誘引力学によって制御される。
高速分岐法を用いて、軌道力学をインパルスレベルから分離する。
論文 参考訳(メタデータ) (2026-04-16T12:16:53Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - PolyGLU: State-Conditional Activation Routing in Transformer Feed-Forward Networks [0.0]
我々は、各FFNニューロンがK=4の活性化関数を動的にルーティングすることを可能にする、SwiGLUのドロップイン置換であるPolyGLUを紹介する。
標準的なベンチマークでは、PlychromaticLMは3,600倍のトークンのトレーニングにもかかわらず、Qwen3-0.6B-Baseのパフォーマンスの62-89%を達成した。
論文 参考訳(メタデータ) (2026-03-07T10:39:56Z) - Scalable Multi-Task Low-Rank Model Adaptation [43.22544779625565]
マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。
規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。
3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:57:11Z) - TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention [44.64827167753535]
有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
論文 参考訳(メタデータ) (2026-01-29T15:58:12Z) - Decoding Correlated Errors in Quantum LDPC Codes [41.04211723135311]
本稿では,回路レベルの雑音下での量子LDPC符号における相関誤差の復号化フレームワークを提案する。
提案手法のコアは、相関検出誤差モデルを変更する干渉法(GARI)のグラフ拡張と再配線である。
FPGA実装の予備的な結果は、この高い精度をリアルタイムに達成でき、デコードインスタンスの99.99%において、平均デコードレイテンシは273 ns、サブマイクロ秒レイテンシは99.99%であることを示している。
論文 参考訳(メタデータ) (2025-10-15T19:59:05Z) - Robust Residual Finite Scalar Quantization for Neural Compression [46.574899938569125]
有限スカラー量子化(FSQ)は、簡易なトレーニングを提供するが、多段階設定での残留等級劣化に悩まされる。
本稿では,2つの新しい条件付け手法を用いて,この基本的な制限に対処するロバスト残留有限スカラー量子化(RFSQ)を提案する。
RFSQの有効性と一般化性を示す。
論文 参考訳(メタデータ) (2025-08-20T15:18:59Z) - REPAIR: REnormalizing Permuted Activations for Interpolation Repair [42.167567335873954]
ニューラルネットワークの置換不変性を考慮すると、SGD解間の線形分散に損失障壁がない可能性が示されている。
特に,ImageNetではResNet50が74%,CIFAR10ではResNet18が90%であった。
論文 参考訳(メタデータ) (2022-11-15T18:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。