論文の概要: Steer Model beyond Assistant: Controlling System Prompt Strength via Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2601.06403v1
- Date: Sat, 10 Jan 2026 02:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.796102
- Title: Steer Model beyond Assistant: Controlling System Prompt Strength via Contrastive Decoding
- Title(参考訳): アシスタントを超えたステアモデル:コントラストデコーディングによるシステムのプロンプト強度の制御
- Authors: Yijiang River Dong, Tiancheng Hu, Zheng Hui, Nigel Collier,
- Abstract要約: 大規模な言語モデルは複雑な命令で優れているが、アシスタントペルソナからの逸脱に苦慮している。
本稿では,プロンプト付着を連続制御として扱う訓練不要なシステムプロンプト強度について紹介する。
- 参考スコア(独自算出の注目度): 33.569783099301695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel at complex instructions yet struggle to deviate from their helpful assistant persona, as post-training instills strong priors that resist conflicting instructions. We introduce system prompt strength, a training-free method that treats prompt adherence as a continuous control. By contrasting logits from target and default system prompts, we isolate and amplify the behavioral signal unique to the target persona by a scalar factor alpha. Across five diverse benchmarks spanning constraint satisfaction, behavioral control, pluralistic alignment, capability modulation, and stylistic control, our method yields substantial improvements: up to +8.5 strict accuracy on IFEval, +45pp refusal rate on OffTopicEval, and +13% steerability on Prompt-Steering. Our approach enables practitioners to modulate system prompt strength, providing dynamic control over model behavior without retraining.
- Abstract(参考訳): 大規模な言語モデルは複雑な命令に精通するが、補助的なペルソナからの逸脱に苦慮している。
本稿では,プロンプト付着を連続制御として扱う訓練不要なシステムプロンプト強度について紹介する。
対象とデフォルトのシステムプロンプトからのロジットを対比することにより、ターゲットのペルソナ固有の行動信号をスカラー係数αで分離・増幅する。
制約満足度,行動制御,多元的アライメント,能力変調,スタイリスティックコントロールの5つのベンチマークにおいて,IFEvalでは+8.5精度,OffTopicEvalでは+45pp拒絶率,Prompt-Steeringでは+13%ステアビリティが向上した。
提案手法は, システム・プロンプトの強度を調節し, モデル動作の動的制御を可能にする。
関連論文リスト
- AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - End-to-End Visual Autonomous Parking via Control-Aided Attention [30.52881549605385]
CAA-Policyは、正確な駐車のためのエンドツーエンドの模倣学習システムである。
制御信号は、新しい制御支援注意機構を通じて視覚的注意の学習を導くことができる。
論文 参考訳(メタデータ) (2025-09-14T04:51:19Z) - Instruction Following by Boosting Attention of Large Language Models [11.739148611340964]
潜水ステアリングは 内部の活性化を 誘導する 軽量な技術だ
InstABoostは、世代間のモデルの注意を変えることで、インストラクションの強度を高める。
InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
論文 参考訳(メタデータ) (2025-06-16T17:42:35Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - SMART: Self-supervised Multi-task pretrAining with contRol Transformers [34.604339091596884]
自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-24T05:01:23Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。