論文の概要: Trust Region Q Adjoint Matching
- arxiv url: http://arxiv.org/abs/2605.27079v1
- Date: Tue, 26 May 2026 14:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.223946
- Title: Trust Region Q Adjoint Matching
- Title(参考訳): Trust Region Q Adjoint Matching
- Authors: Yonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin,
- Abstract要約: 本稿では,経路空間KLを予め訓練されたフローポリシーで適応的に制御する安定なオフポリチック微調整アルゴリズムであるTrust Region Q-Adjoint Matching (TRQAM)を紹介する。
TRQAMは、オフラインRLとオフライン-オフラインRLの両方において、常に先行技術を上回っている。
- 参考スコア(独自算出の注目度): 54.05514246126841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter $λ$ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of $λ$. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.
- Abstract(参考訳): 多段階サンプリングプロセスから生じる最適化の不安定さのため,事前学習済みのフローポリシーの非政治強化学習は依然として困難である。
近年,Q-learning with Adjoint Matching (QAM) は,学習評論家とともに,記憶のない確率的最適制御(SOC)問題に再構成することでこの問題に対処している。
しかし、QAMは批判に導かれた改善の根本的な脆弱さを継承し、批判者が不調な時に小さな批判的誤りが増幅され、しばしばモデル崩壊につながる。
本稿では,経路空間KLを予測二重降下による事前学習フローポリシーで適応的に制御する安定なオフポリチック微調整アルゴリズムであるTrust Region Q-Adjoint Matching (TRQAM)を紹介する。
具体的には SOC 力学における信頼領域パラメータ $λ$ を最適化し、理論的には経路空間 KL が $λ$ の閉形式関数で表せることを示す。
その結果,本手法は,事前学習したフローポリシーから正確な逸脱を正確に制御し,安定なオフポリチックRLを実現することができることがわかった。
50のOGBenchタスクの実験を通じて、TRQAMはオフラインのRLとオフラインのRLの両方において、常に先行技術を上回っている。
特にTRQAMは、オフラインRLで68%の成功率を達成し、最強のベースラインを46%で大幅に改善する。
関連論文リスト
- Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。