論文の概要: Steerability of Instrumental-Convergence Tendencies in LLMs
- arxiv url: http://arxiv.org/abs/2601.01584v1
- Date: Sun, 04 Jan 2026 16:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.545725
- Title: Steerability of Instrumental-Convergence Tendencies in LLMs
- Title(参考訳): LLMにおけるインスツルメンタルコンバージェンステンダのステアビリティ
- Authors: Jakub Hoscilowicz,
- Abstract要約: 我々は、許可されたステアビリティ(意図された行動に確実に到達するビルダー)と許可されていないステアビリティ(禁止された行動を引き起こすアタッカー)を区別する。
この区別は、オープンウェイトAIモデルの基本的な安全性とセキュリティのジレンマを強調している。
短い反構造的プロンプト接尾辞は、インストゥルメンタルコンバージェンスとしてラベル付けされた出力を鋭く削減する。
- 参考スコア(独自算出の注目度): 0.5922488908114023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). In our experiments, higher capability does not imply lower steerability. We distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma for open-weight AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability to prevent malicious actors from eliciting harmful behaviors. This tension is acute for open-weight models, which are currently highly steerable via common techniques such as fine-tuning and adversarial prompting. Using Qwen3 models (4B/30B; Base/Instruct/Thinking) and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces outputs labeled as instrumental convergence (e.g., shutdown avoidance, deception, self-replication). For Qwen3-30B Instruct, convergence drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models produce fewer convergence-labeled outputs than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
- Abstract(参考訳): AIシステムの2つの特性について検討する。能力(システムができること)と操舵性(意図した結果に向けて振舞いを確実に変えることができるか)である。
我々の実験では、高い能力はステアビリティを低下させるものではない。
我々は、許可されたステアビリティ(意図された行動に確実に到達するビルダー)と許可されていないステアビリティ(禁止された行動を引き出すアタッカー)を区別する。
この区別は、オープンウェイトなAIモデルの基本的な安全性とセキュリティのジレンマを強調している。安全はコントロールを強制するために高いステアビリティ(例えば、停止/回避)を必要とし、セキュリティは悪意のあるアクターが有害な行動を引き起こすのを防ぐために低いステアビリティを必要としている。
この緊張は、現在ファインチューニングや逆方向のプロンプトといった一般的な技術を通して高い評価を受けられるオープンウェイトモデルにとって急激である。
Qwen3モデル(4B/30B; Base/Instruct/Thinking; Base/Instruct/Thinking; Base/Instruct/Thinking)とInstrumentalEvalを用いて、短い反構造的プロンプト接尾辞は、インストゥルメンタルコンバージェンス(例えば、シャットダウン回避、偽装、自己複製)としてラベル付けされた出力を劇的に削減する。
Qwen3-30Bのインストラクションでは、コンストラクションは81.69%から2.82%に低下する。
反構造的プロンプトの下では、より大きなアライメントモデルでは、小さなモデルよりも収束ラベル付き出力が少ない(インストラクション: 2.82% vs. 4.23%;思考: 4.23% vs. 9.86%; 思考: 4.23% vs. 9.86%)。
コードはgithub.com/j-hoscilowicz/instrumental_steeringで入手できる。
関連論文リスト
- GSAE: Graph-Regularized Sparse Autoencoders for Robust LLM Safety Steering [5.124731939041066]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃を通じて有害なコンテンツを生成するように操作できるため、重要な安全上の課題に直面している。
グラフ正規化スパースオートエンコーダ (GSAE) を導入し, ニューロン共活性化グラフ上にラプラシアンスムーズネスペナルティを持つSAEを拡張した。
GSAEは, 効果的な安全ステアリング, 特徴を重み付けした安全関連方向に組み立て, 2段階のゲーティング機構で制御できることを実証した。
論文 参考訳(メタデータ) (2025-12-07T04:46:30Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Attacker Control and Bug Prioritization [5.639904484784127]
脆弱性のパラメータに対する攻撃者の制御は、しばしば見過ごされるエクスプロイラビリティの要因である。
テナントだけでなく、単純な定性的かつ定量的な制御概念は、脆弱性を効果的に区別するのに十分なものではないことを示す。
我々は、脅威モデルや専門家の洞察を考慮に入れた上で、制御領域と呼ばれる実現可能な価値セットの分析に焦点を合わせることを提案する。
論文 参考訳(メタデータ) (2025-01-29T16:27:43Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。