論文の概要: Neuron-Anchored Rule Extraction for Large Language Models via Contrastive Hierarchical Ablation
- arxiv url: http://arxiv.org/abs/2605.03058v1
- Date: Mon, 04 May 2026 18:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.598447
- Title: Neuron-Anchored Rule Extraction for Large Language Models via Contrastive Hierarchical Ablation
- Title(参考訳): コントラスト的階層的アブレーションによる大言語モデルのニューロンアンコレッド規則抽出
- Authors: Francesco Sovrano, Gabriele Dominici, Marc Langheinrich,
- Abstract要約: 説明可能なAI(XAI)の重要な目標は、大きな言語モデル(LLM)の決定ロジックを象徴的な形で表現することである。
我々は、アゴニストと呼ばれるスパースニューロンを効率よく局在させることにより、LSM回路における規則抽出を基礎とするパイプラインであるMechaRuleを紹介する。
- 参考スコア(独自算出の注目度): 5.880505093493663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key goal of explainable AI (XAI) is to express the decision logic of large language models (LLMs) in symbolic form and link it to internal mechanisms. Global rule-extraction methods typically learn symbolic surrogates without grounding rules in model circuitry, while mechanistic interpretability can connect behaviors to neuron sets but often depends on hand-crafted hypotheses and expensive neuron-level interventions. We introduce MechaRule, a pipeline that grounds rule extraction in LLM circuits by efficiently localizing sparse neurons called agonists, whose activation neutralization disrupts rule-related behaviors. MechaRule rests on two empirical observations. First, within a fixed baseline/flip regime, sparse agonist effects can be approximately monotone and saturating: a few dominant neuron activations can overtop weaker ones at coarse scales, while overlapping neurons flip many of the same examples. This motivates viewing localization as adaptive group testing driven by a regime-conditional strength predicate with confidence-guided conservative pruning, yielding Theta(k log(N/k) + k) interventions over N candidates when k << N neurons are agonists under the monotone-overtopping abstraction. Second, agonists emerge more reliably when ablations are verified through data splits aligned with close-to-faithful rule behavior; spectral splits remain a useful rule-free fallback, while unfaithful splits degrade localization. Empirically, overtopping appears mainly in learned, task-aligned regimes: on arithmetic and jailbreak tasks across Qwen2 and GPT-J, MechaRule recalls 96.8% of high-effect brute-force agonists in completed comparisons, and suppressing localized agonists reduces arithmetic accuracy and jailbreak success by up to 71.1% and 8.8%, respectively.
- Abstract(参考訳): 説明可能なAI(XAI)の重要な目標は、大きな言語モデル(LLM)の決定ロジックをシンボル形式で表現し、それを内部メカニズムにリンクすることだ。
グローバルな規則抽出法は、典型的には、モデル回路の基盤となる規則なしで記号的なサロゲートを学習するが、機械論的解釈性は、行動とニューロン集合を結びつけることができるが、しばしば手作りの仮説や高価なニューロンレベルの介入に依存する。
我々は、アゴニストと呼ばれるスパースニューロンを効率よく局在させることにより、LCM回路におけるルール抽出を基礎とするパイプラインであるMechaRuleを紹介し、その活性化中和はルール関連挙動を阻害する。
MechaRuleは2つの経験的な観察に基づいている。
まず、固定されたベースライン/フリップ状態において、スパースアゴニスト効果は概して単調で飽和し、いくつかの支配的なニューロン活性化は粗いスケールで弱いアゴニストを上回り、重なり合うニューロンは同じ例の多くを反転させる。
このことは、状態条件による強度予測によって誘導される適応群テストとしてローカライゼーションを動機付け、K<<Nニューロンがモノトンオーバートッピング抽象の下でアゴニストであるとき、N候補に対するTheta(k log(N/k) + k)干渉を与える。
第二に、アゴニストは、データ分割によってアゴニストが検証されると、より確実に現れる; スペクトル分割は有用なルールなしのフォールバックであり、一方不誠実なスプリットはローカライゼーションを低下させる。
Qwen2 と GPT-J にまたがる算術とjailbreak のタスクにおいて、MechaRule は96.8%の高効率なブルートフォースアゴニストを完全な比較でリコールし、局所化されたアゴニストを抑えることで、算術的精度とjailbreak の成功を 71.1% と 8.8% に削減する。
関連論文リスト
- Bias Inheritance in Neural-Symbolic Discovery of Constitutive Closures Under Function-Class Mismatch [1.6249267147413524]
PDE構造を持つ非線形反応拡散系における閉包のデータの駆動的発見について検討する。
物理的制約下で数値的代理を学習し、これらの代理を制限可能な記号族に圧縮し、未知の初期条件で明示的な前方シミュレーションによってシンボル的クロージャを検証する3段階のニューラルネットワーク・シンボリック・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T19:39:04Z) - GPrune-LLM: Generalization-Aware Structured Pruning for Large Language Models [17.33640761554548]
一般化型構造化プルーニングフレームワークであるGPrune-LLMを提案する。
まず、ニューロンを行動整合モジュールに分割し、ランキング競争をローカライズする。
アクティベーションベースのスコアリングが信頼できないモジュールに対しては、アクティベーション非依存メトリックに切り替える。
論文 参考訳(メタデータ) (2026-03-12T19:20:37Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。