論文の概要: Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning
- arxiv url: http://arxiv.org/abs/2605.29028v1
- Date: Wed, 27 May 2026 19:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.345754
- Title: Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning
- Title(参考訳): Return-to-Go:Q-Guided Alignment for Return-Conditioned Supervised Learning
- Authors: Yuxiao Yang, Weitong Zhang,
- Abstract要約: 条件付きシーケンスモデル(CSM)は、RTG(Return-to-go)を制御信号として扱うことでポリシーを学習する。
このアライメントを強制するフレームワークであるQ-ALIGN DTを提案する。
本稿では,Q-ALIGN DTが所望のポリシーを効率的に学習し,ほぼ最適に出力できることを示す。
- 参考スコア(独自算出の注目度): 18.76637029534068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditioned Sequence Models (CSMs) learn policies by treating return-to-go (RTG) as a control signal. However, existing CSMs often treat the RTGs as simple numerical inputs rather than aligning them with the performance of their policies. In this paper, we propose Q-ALIGN DT, a framework that enforces this alignment by ensuring the $Q$-value of the output policy is consistent with the input RTG. By leveraging a $Q$ function to provide dense guidance to CSMs and further fine-tuning it using an RTG-perturbation technique with the CSM, our method ensures that higher RTGs are consistently mapped to trajectories with higher expected returns. Theoretically, we show that Q-ALIGN DT can efficiently learn the desired policy and output a near-optimal one when the RTG is sufficiently high. Empirically, we demonstrate through extensive experiments that Q-ALIGN DT achieves superior controllability and performance across the D4RL benchmark. Remarkably, our model effectively learns a structured family of policies that maintains precise alignment and generalizes to tasks like velocity-tracking where prior methods fail.
- Abstract(参考訳): 条件付きシーケンスモデル(CSM)は、RTG(Return-to-go)を制御信号として扱うことでポリシーを学習する。
しかし、既存のCSMでは、RTGをポリシーの性能と整合させるのではなく、単純な数値入力として扱うことが多い。
本稿では、出力ポリシーの$Q$-valueが入力RTGと一致していることを保証することで、このアライメントを強制するフレームワークであるQ-ALIGN DTを提案する。
Q$関数を利用してCSMに高密度なガイダンスを提供し、さらにCSMを用いたRTG摂動技術を用いて微調整することで、より高いRTGを高い期待値のトラジェクトリに一貫したマッピングを可能にする。
理論的には,RTGが十分に高い場合,Q-ALIGN DT が所望のポリシーを効率的に学習し,最適に近いポリシーを出力できることが示されている。
実験により,Q-ALIGN DT が D4RL ベンチマークにおいて優れた制御性と性能を達成できることを示す。
注目すべきことに、我々のモデルは、正確なアライメントを維持し、事前の手法が失敗するベロシティ追跡のようなタスクに一般化する、構造化されたポリシーの族を効果的に学習する。
関連論文リスト
- GAPD: Gold-Action Policy Distillation for Agentic Reinforcement Learning in Knowledge Base Question Answering [64.23115520219609]
結果に基づくRLに高密度トークンレベルガイダンスを付加する訓練時間金反応政策蒸留フレームワークを提案する。
GAPDはWebQSP、GrailQA、GraphQの最先端技術に一貫して勝っている。
論文 参考訳(メタデータ) (2026-05-28T08:28:10Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - OGPO: Sample Efficient Full-Finetuning of Generative Control Policies [53.42266064673132]
ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。
この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-05-04T18:36:40Z) - One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient [16.05489579792086]
政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
我々は,OTRを微調整LDMの強力で実用的な代替品として位置づけた。
論文 参考訳(メタデータ) (2025-09-30T14:25:56Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。