論文の概要: Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling
- arxiv url: http://arxiv.org/abs/2604.09159v1
- Date: Fri, 10 Apr 2026 09:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.806365
- Title: Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling
- Title(参考訳): ワンステップサンプリングによる強化学習のための整流流政策
- Authors: Xubin Zhou, Yipeng Yang, Zhan Li,
- Abstract要約: 最大エントロピー強化学習(MaxEnt RL)がシーケンシャル意思決定の標準フレームワークとなっている。
本稿では,ハイブリッド決定論的確率論的アーキテクチャに基づくフレームワークであるTrncated Rectified Flow Policyを提案する。
- 参考スコア(独自算出の注目度): 3.6266846456338695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum entropy reinforcement learning (MaxEnt RL) has become a standard framework for sequential decision making, yet its standard Gaussian policy parameterization is inherently unimodal, limiting its ability to model complex multimodal action distributions. This limitation has motivated increasing interest in generative policies based on diffusion and flow matching as more expressive alternatives. However, incorporating such policies into MaxEnt RL is challenging for two main reasons: the likelihood and entropy of continuous-time generative policies are generally intractable, and multi-step sampling introduces both long-horizon backpropagation instability and substantial inference latency. To address these challenges, we propose Truncated Rectified Flow Policy (TRFP), a framework built on a hybrid deterministic-stochastic architecture. This design makes entropy-regularized optimization tractable while supporting stable training and effective one-step sampling through gradient truncation and flow straightening. Empirical results on a toy multigoal environment and 10 MuJoCo benchmarks show that TRFP captures multimodal behavior effectively, outperforms strong baselines on most benchmarks under standard sampling, and remains highly competitive under one-step sampling.
- Abstract(参考訳): 最大エントロピー強化学習(MaxEnt RL)は、シーケンシャルな意思決定の標準フレームワークとなっているが、標準のガウスポリシーのパラメータ化は本質的には非モーダルであり、複雑なマルチモーダルな行動分布をモデル化する能力を制限する。
この制限は、より表現力のある代替手段として拡散とフローマッチングに基づく生成ポリシーへの関心の高まりを動機付けている。
しかし、このようなポリシーをMaxEnt RLに組み込むことは、2つの主な理由により困難である。
これらの課題に対処するために,ハイブリッド決定論的確率的アーキテクチャに基づくフレームワークであるTrncated Rectified Flow Policy (TRFP)を提案する。
この設計によりエントロピー規則化された最適化は安定なトレーニングをサポートし、グラディエントトランケーションとフローストレートニングによる効果的なワンステップサンプリングが可能である。
おもちゃのマルチゴール環境と10のMuJoCoベンチマークの実証結果から、TRFPはマルチモーダルな振る舞いを効果的に捉え、標準サンプリングでほとんどのベンチマークにおいて強いベースラインを上回り、1ステップサンプリングでは高い競争力を維持している。
関連論文リスト
- Flow Matching Policy with Entropy Regularization [16.47598359293598]
Flow Matching Policy with Entropy Regularization (FMER)は、通常の微分方程式(ODE)ベースのオンラインRLフレームワークである。
FMERは、フローマッチングを通じてポリシーをパラメータ化し、最適な輸送によって動機付けられたストレートな確率経路に沿ってアクションをサンプリングする。
スパースマルチゴールのFrankaKitchenベンチマークの実験は、FMERが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2026-03-18T13:00:20Z) - From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Categorical Policies: Multimodal Policy Learning and Exploration in Continuous Control [1.7495213911983414]
中間カテゴリー分布を持つマルチモーダルな動作モードをモデル化するためにカテゴリーポリシーを導入する。
動作モードを選択するために潜在カテゴリー分布を利用することで、本手法はサンプリングトリックを通して完全に微分可能でありながら、マルチモーダル性を自然に表現する。
その結果, カテゴリー分布は, 連続制御における構造的探索と多モーダルな行動表現の強力なツールとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-08-19T15:18:01Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。