論文の概要: WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior
- arxiv url: http://arxiv.org/abs/2603.18474v1
- Date: Thu, 19 Mar 2026 04:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.953228
- Title: WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior
- Title(参考訳): WASD:LLMの動作の説明と制御に有効な条件として臨界ニューロンを配置する
- Authors: Haonan Yu, Junhao Liu, Zhenyu Yan, Haoran Lin, Xin Zhang,
- Abstract要約: 本稿では,トークン生成に十分なニューラルネットワーク条件を同定し,モデル動作を説明する新しいフレームワークWASDを提案する。
提案手法は,ニューロン活性化述語として候補条件を表現し,電流出力を保証する最小セットを反復的に探索する。
SST-2とCounterFactをGemma-2-2Bモデルで実験した結果,従来の属性グラフよりも安定で正確で簡潔な説明が得られた。
- 参考スコア(独自算出の注目度): 9.509326860665476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise behavioral control of large language models (LLMs) is critical for complex applications. However, existing methods often incur high training costs, lack natural language controllability, or compromise semantic coherence. To bridge this gap, we propose WASD (unWeaving Actionable Sufficient Directives), a novel framework that explains model behavior by identifying sufficient neural conditions for token generation. Our method represents candidate conditions as neuron-activation predicates and iteratively searches for a minimal set that guarantees the current output under input perturbations. Experiments on SST-2 and CounterFact with the Gemma-2-2B model demonstrate that our approach produces explanations that are more stable, accurate, and concise than conventional attribution graphs. Moreover, through a case study on controlling cross-lingual output generation, we validated the practical effectiveness of WASD in controlling model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の高精度な動作制御は複雑なアプリケーションには不可欠である。
しかし、既存の手法は、しばしば高いトレーニングコスト、自然言語の制御能力の欠如、セマンティック・コヒーレンスを妥協させる。
このギャップを埋めるために、トークン生成に十分な神経条件を特定してモデル動作を説明する新しいフレームワークWASD(un Weaving Actionable Sufficient Directives)を提案する。
提案手法は,ニューロン活性化予測として候補条件を表現し,入力摂動下での電流出力を保証する最小限の集合を反復的に探索する。
SST-2とCounterFactをGemma-2-2Bモデルで実験した結果,従来の属性グラフよりも安定で正確で簡潔な説明が得られた。
さらに,言語間出力生成の制御に関するケーススタディを通じて,モデル動作の制御におけるWASDの有効性を検証した。
関連論文リスト
- PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection [12.780661306169474]
我々はtextbfConditional Dropout と textbfLAnguage-driven(textbfCoLA) フレームワークを紹介する。
このフレームワークは、ノイズの多い入力の影響を軽減し、その性能を完全なモダリティで保存する。
モダリティ完全条件とモダリティ欠如条件の両方の下で、最先端のデュアルモーダルSODモデルより優れている。
論文 参考訳(メタデータ) (2024-07-09T11:49:24Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。