論文の概要: Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions
- arxiv url: http://arxiv.org/abs/2605.05983v1
- Date: Thu, 07 May 2026 10:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.699844
- Title: Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions
- Title(参考訳): 犠牲のないステアリングに向けて:プロンプトのみの介入のためのステアリングベクトルの原理的訓練
- Authors: Yuntai Bao, Qinfeng Li, Xinyan Yu, Xuhong Zhang, Ge Su, Wenqi Zhang, Liu Yan, Haiqin Weng, Jianwei Yin,
- Abstract要約: 微調整ステアリングベクトル(SV)への現在のアプローチには2つの制限がある。
推論時のステアリング効率と生成品質のバランスをとるためには,SV単位のステアリング因子の選択を慎重に行う必要がある。
本稿では, 定位後因子選択が不要となるような操舵因子と方向の連成トレーニングを提案する。
- 参考スコア(独自算出の注目度): 33.18090400463944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, steering vectors (SVs) have emerged as an effective and lightweight approach to steer behaviors of large language models (LLMs), among which fine-tuned SVs are more effective than optimization-free ones. However, current approaches to fine-tuned SVs suffer from two limitations. First, they require careful selection of steering factors on a per-SV basis to balance steering effectiveness and generation quality at inference time. Second, they operate as full-sequence SVs (FSSVs), which can sacrifice generation quality regardless of factor selection due to excessive intervention on the model generation process. To address the first limitation, we propose joint training of steering factors and directions, such that post-hoc factor selection is no longer required. Using neural network scaling theory, we find that moderately large initialization sizes and learning rates for steering factors are essential for stability and efficiency of joint training. To tackle the second limitation, we draw inspiration from representation fine-tuning and introduce Prompt-only SV (PrOSV), an SV that intervenes only on a few prompt tokens. Our empirical results show that PrOSV outperforms traditional FSSVs on AxBench when using our joint training scheme. We also find that PrOSV achieves a better tradeoff between general model utility and adversarial robustness than FSSV.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の操舵行動に対する効果的かつ軽量なアプローチとしてステアリングベクター (SV) が登場し,微調整されたSVは最適化のないものよりも効果的である。
しかし、細調整されたSVに対する現在のアプローチには2つの制限がある。
まず,SV単位のステアリング係数を慎重に選択して,推論時のステアリング効率と生成品質のバランスをとる必要がある。
第二に、フルシーケンスSV(FSSV)として動作し、モデル生成プロセスへの過剰な介入により、要因の選択に関係なく生成品質を犠牲にすることができる。
第1の限界に対処するため, 操舵要素と方向の連成トレーニングを提案し, ポストホック因子の選択はもはや不要である。
ニューラルネットワークのスケーリング理論を用いて、操舵因子の適度な初期化サイズと学習速度が、関節トレーニングの安定性と効率に不可欠であることが判明した。
第2の制限に対処するために、表現の微調整からインスピレーションを得て、数個のプロンプトトークンにのみ介入するSVであるPromptのみのSV(PrOSV)を導入する。
実験の結果, PrOSVはAxBench上での従来のFSSVよりも優れていた。
また,PrOSVはFSSVよりも汎用モデルユーティリティと対向ロバスト性とのトレードオフが優れていることも確認した。
関連論文リスト
- SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model [16.077387927185917]
VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:34:19Z) - Learning from Mistakes: Post-Training for Driving VLA with Takeover Data [22.44026866655379]
TakeVLAは、2つの補完的なイノベーションを通じて欠点を克服する新しいVLAポストトレーニングフレームワークである。
まず,VLAが積極的に誤りから学ぶことができるような,占領前言語指導を導入する。
第2に,再建された乗っ取りシナリオで動作する強化微調整パラダイムであるScenario Dreamingを提案する。
論文 参考訳(メタデータ) (2026-03-16T08:33:48Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs [8.089908150148554]
視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。
textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T14:47:59Z) - One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Prior Learning in Introspective VAEs [26.51505732100697]
変分オートエンコーダ(VAE)は教師なし学習とデータ生成のための一般的なフレームワークである。
本研究では,イントロスペクティブVAEファミリーの2人のうちの1人であるSoft-IntroVAE(S-IntroVAE)に焦点を当てた。
本稿では,このS-IntroVAEに,マルチモーダルでトレーニング可能なプリエンプティブを組み込むことの意味について検討する。
論文 参考訳(メタデータ) (2024-08-25T10:54:25Z) - Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文 参考訳(メタデータ) (2023-06-30T22:05:34Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness
and Accuracy for Free [115.81899803240758]
敵の訓練とその多くの変種は、ネットワークの堅牢性を大幅に改善するが、標準精度を妥協するコストがかかる。
本稿では,訓練されたモデルをその場で迅速に校正する方法を問うとともに,その標準と堅牢な精度のトレードオフについて検討する。
提案するフレームワークであるOne-for-all Adversarial Training (OAT)は,革新的なモデル条件トレーニングフレームワーク上に構築されている。
論文 参考訳(メタデータ) (2020-10-22T16:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。