論文の概要: Steerability of Instrumental-Convergence Tendencies in LLMs
- arxiv url: http://arxiv.org/abs/2601.01584v2
- Date: Tue, 06 Jan 2026 16:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.383971
- Title: Steerability of Instrumental-Convergence Tendencies in LLMs
- Title(参考訳): LLMにおけるインスツルメンタルコンバージェンステンダのステアビリティ
- Authors: Jakub Hoscilowicz,
- Abstract要約: AIシステムの2つの特性として、能力(システムができること)とステアビリティ(steerability)について検討する。
我々は、認可されたステアビリティ(意図された行動に確実に到達する)と許可されていないステアビリティを区別する。
この区別は、AIモデルの基本的な安全性とセキュリティのジレンマを強調している。
- 参考スコア(独自算出の注目度): 0.5922488908114023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
- Abstract(参考訳): AIシステムの2つの特性について検討する。能力(システムができること)と操舵性(意図した結果に向けて振る舞うことを確実に行うことができるか)である。
中心的な疑問は、能力の成長が操舵可能性やリスク制御の崩壊を減少させるかどうかである。
また、許可されたステアビリティ(意図された行動に確実に到達するビルダー)と許可されていないステアビリティ(許可されていない行動を引き起こすアタッカー)を区別する。
この区別は、AIモデルの基本的な安全性とセキュリティのジレンマを強調している。安全はコントロール(例えば、停止/回避)を強制するために高いステアビリティを必要とし、セキュリティは悪意のあるアクターが有害な行動を誘発するために低いステアビリティを必要としている。
この緊張は、現在、微調整や敵攻撃のような一般的な技術を介して高い操縦性を示すオープンウェイトモデルにとって重要な課題である。
Qwen3 と InstrumentalEval を用いて、短い反構造的プロンプト接尾辞は、測定された収束率(例えば、シャットダウン回避、自己複製)を急激に減少させる。
Qwen3-30Bインストラクタでは、コンバージェンスレートが81.69%から2.82%に低下する。
反構造的プロンプトの下では、より大きな整列モデルは小さなモデルよりも収束率が低い(インストラクション: 2.82% vs. 4.23%;思考: 4.23% vs. 9.86%; 思考: 4.23% vs. 9.86%)。
コードはgithub.com/j-hoscilowicz/instrumental_steeringで入手できる。
関連論文リスト
- GSAE: Graph-Regularized Sparse Autoencoders for Robust LLM Safety Steering [5.124731939041066]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃を通じて有害なコンテンツを生成するように操作できるため、重要な安全上の課題に直面している。
グラフ正規化スパースオートエンコーダ (GSAE) を導入し, ニューロン共活性化グラフ上にラプラシアンスムーズネスペナルティを持つSAEを拡張した。
GSAEは, 効果的な安全ステアリング, 特徴を重み付けした安全関連方向に組み立て, 2段階のゲーティング機構で制御できることを実証した。
論文 参考訳(メタデータ) (2025-12-07T04:46:30Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Attacker Control and Bug Prioritization [5.639904484784127]
脆弱性のパラメータに対する攻撃者の制御は、しばしば見過ごされるエクスプロイラビリティの要因である。
テナントだけでなく、単純な定性的かつ定量的な制御概念は、脆弱性を効果的に区別するのに十分なものではないことを示す。
我々は、脅威モデルや専門家の洞察を考慮に入れた上で、制御領域と呼ばれる実現可能な価値セットの分析に焦点を合わせることを提案する。
論文 参考訳(メタデータ) (2025-01-29T16:27:43Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。