論文の概要: Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits
- arxiv url: http://arxiv.org/abs/2603.16335v1
- Date: Tue, 17 Mar 2026 10:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.213321
- Title: Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits
- Title(参考訳): SAEデコードされたプローブベクトルによる35B MoE言語モデルにおける行動ステアリング:1つのエージェンシー軸,5つの特性
- Authors: Jia Qing Yap,
- Abstract要約: 我々はQwen 3.5-35B-A3Bの残流上に9個のスパースオートエンコーダ(SAE)を訓練する。
私たちは5つのエージェント的行動特性を識別し、管理するためにそれらを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train nine sparse autoencoders (SAEs) on the residual stream of Qwen 3.5-35B-A3B, a 35-billion-parameter Mixture-of-Experts model with a hybrid GatedDeltaNet/attention architecture, and use them to identify and steer five agentic behavioral traits. Our method trains linear probes on SAE latent activations, then projects the probe weights back through the SAE decoder to obtain continuous steering vectors in the model's native activation space. This bypasses the SAE's top-k discretization, enabling fine-grained behavioral intervention at inference time with no retraining. Across 1,800 agent rollouts (50 scenarios times 36 conditions), we find that autonomy steering at multiplier 2 achieves Cohen's d = 1.01 (p < 0.0001), shifting the model from asking the user for help 78% of the time to proactively executing code and searching the web. Cross-trait analysis, however, reveals that all five steering vectors primarily modulate a single dominant agency axis (the disposition to act independently versus defer to the user), with trait specific effects appearing only as secondary modulations in tool-type composition and dose-response shape. The tool-use vector steers behavior (d = 0.39); the risk-calibration vector produces only suppression. We additionally show that steering only during autoregressive decoding has zero effect (p > 0.35), providing causal evidence that behavioral commitments are computed during prefill in GatedDeltaNet architectures.
- Abstract(参考訳): ハイブリッドGatedDeltaNet/アテンションアーキテクチャを用いた35ビリオンパラメータ混合実験モデルQwen 3.5-35B-A3Bの残ストリーム上で,9つのスパースオートエンコーダ(SAEs)を訓練し,それらを5つのエージェント的挙動特性の同定とステアリングに利用する。
提案手法は,SAE遅延活性化の線形プローブを訓練し,SAEデコーダを介してプローブ重みを投影し,モデルの固有活性化空間における連続的なステアリングベクトルを得る。
これにより、SAEの上位kの離散化を回避し、推論時のきめ細かい行動介入が再トレーニングなしで可能となる。
1,800件のエージェントロールアウト(シナリオ50回36条件)を通じて、乗算器2での自律的なステアリングがCohenのd = 1.01(p < 0.0001)を実現し、ユーザの助けを求めることから、積極的にコードを実行し、Webを検索する時間の78%に移行したことが分かりました。
しかし,5つのステアリングベクターはいずれも1つの支配的エージェンシー軸を主に変調し,その特性特異的効果はツールタイプ組成や線量応答形においてのみ二次変調として現れる。
ツール使用ベクトルステアリング(d = 0.39)、リスク校正ベクトルは抑制のみを生成する。
また,自己回帰復号化時にのみステアリングがゼロであることを示す(p > 0.35)。
関連論文リスト
- AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - Controllable and explainable personality sliders for LLMs at inference time [1.3688381983244782]
連続多次元パーソナリティ制御のためのモジュラーフレームワークを提案する。
我々の重要な革新は、逐次適応ステアリング(SAS)である。これは、先行介入によってシフトした残流上のその後のプローブをトレーニングすることで、ステアリングベクトルを変換する手法である。
我々は,ビッグファイブの性格特性に関する枠組みを検証し,ゴール順守とコヒーレンスの両方において,ナイーブ・ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T08:16:59Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Fusion Steering: Prompt-Specific Activation Control [0.0]
Fusion Steeringは、質問応答(QA)タスクのための大規模言語モデル(LLM)の事実精度を改善する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
論文 参考訳(メタデータ) (2025-05-28T16:46:55Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。