Fugu-MT 論文翻訳(概要): VSPO: Vector-Steered Policy Optimization for Behavioral Control

論文の概要: VSPO: Vector-Steered Policy Optimization for Behavioral Control

arxiv url: http://arxiv.org/abs/2605.15604v1
Date: Fri, 15 May 2026 04:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.170312
Title: VSPO: Vector-Steered Policy Optimization for Behavioral Control
Title（参考訳）: VSPO: 行動制御のためのベクトルステアリングポリシ最適化
Authors: Xuechen Zhang, Zijian Huang, Kai Yang, Weijia Zhang, Jiasi Chen, Samet Oymak,
Abstract要約: 本稿では,言語モデルに対するVector-Steered Policy Optimization (VSPO)を提案する。 VSPOは、ターゲットの振る舞いに関連するステアリングベクトルを使用して、生成されたロールアウトの挙動強度を制御する。 VSPOはタスクの正確性を維持したり改善したりしながら、目標行動に沿った制御を一貫して改善することを示す。
参考スコア（独自算出の注目度）: 30.80095775190934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern language models often need to optimize a primary accuracy objective while also accommodating secondary behavioral preferences, such as verbosity, agreeableness, or the level of technical expertise in its response. In practice, a base model may exhibit a desired behavior very rarely or not at all. Thus, endowing the model with a target behavior creates a sparse behavioral reward bottleneck. To address such multi-objective problems, we introduce Vector-Steered Policy Optimization (VSPO) which employs a steering vector associated with the target behavior to control the behavior intensity of the generated rollouts. VSPO is obtained by modifying GRPO to sample rollouts with varying steering intensities. This process can be interpreted as an on-policy latent self-distillation procedure where the model internalizes its steering vector. By varying steering intensities, VSPO upsamples rare behaviors and enriches rollout diversity, which alleviates the sparse reward issue and provably accelerates the policy optimization. Through comprehensive theory and experiments, we establish that VSPO has favorable properties compared to vanilla reward shaping and other alternative approaches. Specifically, under a bandit abstraction, VSPO provably achieves better iteration complexity than reward-shaped GRPO when the steering-induced distributions are sufficiently aligned with the target behavior. We evaluate VSPO across multiple reasoning benchmarks, including MATH and MMLU-Pro, for four target behaviors: explanation expertise, confidence expression, robustness to misleading context, and response verbosity. Our results show that VSPO consistently improves the control along target behavior while maintaining or improving task accuracy compared with reward shaping, teacher-trace distillation, and guidance-based baselines.
Abstract（参考訳）: 現代の言語モデルは、しばしば第一の精度目標を最適化し、冗長性、同意性、あるいはその応答における技術的な専門知識のレベルのような二次的な行動選好を調整する必要がある。実際には、ベースモデルは、非常にまれに、あるいは全く望まれない振る舞いを示すかもしれない。したがって、モデルに対象の振る舞いを与えると、スパースな行動報酬のボトルネックが生じる。このような多目的問題に対処するために、ターゲットの動作に関連付けられたステアリングベクトルを用いて、生成されたロールアウトの挙動強度を制御するベクタステアリングポリシー最適化(VSPO)を導入する。 VSPOは、GRPOを様々な操舵強度でサンプルロールアウトに変更することで得られる。この過程は、モデルがそのステアリングベクトルを内部化する、政治上の潜在自己蒸留過程と解釈できる。ステアリングの強度の変化により、VSPOは稀な振る舞いを増幅し、ロールアウトの多様性を強化し、スパース報酬問題を緩和し、ポリシーの最適化を確実に加速する。包括的理論と実験により、VSPOはバニラ報酬形成やその他の代替手法と比較して有利な性質を持つことが示された。特に、バンディットの抽象化の下では、VSPOは、ステアリング誘起分布が目標動作と十分に一致している場合、報奨形GRPOよりも、確実にイテレーションの複雑さを達成できる。我々は,MATH と MMLU-Pro を含む複数の推論ベンチマークを用いて VSPO を,説明的専門知識,自信表現,誤解を招く文脈に対する堅牢性,応答冗長性という4つの目標行動に対して評価した。以上の結果から,VSPOは報酬形成,教師トラス蒸留,ガイダンスベースラインと比較して,目標行動に沿った制御を一貫して改善し,タスク精度を維持・改善していることがわかった。

関連論文リスト

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。 CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文参考訳（メタデータ） (2026-05-14T08:22:21Z)
PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。 PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。 3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文参考訳（メタデータ） (2026-02-24T08:56:52Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文参考訳（メタデータ） (2025-08-22T14:30:53Z)
REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文参考訳（メタデータ） (2025-06-10T02:16:50Z)
One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文参考訳（メタデータ） (2025-02-26T06:13:01Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。