論文の概要: Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
- arxiv url: http://arxiv.org/abs/2602.13810v1
- Date: Sat, 14 Feb 2026 14:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.435528
- Title: Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
- Title(参考訳): 一段階行動生成のための瞬時速度制約付き平均流政策
- Authors: Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Masayoshi Tomizuka, Shengbo Eben Li,
- Abstract要約: 平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
- 参考スコア(独自算出の注目度): 65.13627721310613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning expressive and efficient policy functions is a promising direction in reinforcement learning (RL). While flow-based policies have recently proven effective in modeling complex action distributions with a fast deterministic sampling process, they still face a trade-off between expressiveness and computational burden, which is typically controlled by the number of flow steps. In this work, we propose mean velocity policy (MVP), a new generative policy function that models the mean velocity field to achieve the fastest one-step action generation. To ensure its high expressiveness, an instantaneous velocity constraint (IVC) is introduced on the mean velocity field during training. We theoretically prove that this design explicitly serves as a crucial boundary condition, thereby improving learning accuracy and enhancing policy expressiveness. Empirically, our MVP achieves state-of-the-art success rates across several challenging robotic manipulation tasks from Robomimic and OGBench. It also delivers substantial improvements in training and inference speed over existing flow-based policy baselines.
- Abstract(参考訳): 表現的かつ効率的な政策関数の学習は、強化学習(RL)において有望な方向である。
フローベースの政策は最近、高速な決定論的サンプリングプロセスで複雑な行動分布をモデル化する上で有効であることが証明されているが、表現性と計算負荷のトレードオフに直面しており、通常はフローステップの数によって制御される。
本研究では,高速なワンステップ動作生成を実現するために,平均速度場をモデル化する新しい生成ポリシー関数である平均速度ポリシー(MVP)を提案する。
高表現性を確保するため、トレーニング中の平均速度場に即時速度制約(IVC)を導入する。
理論的には、この設計が重要な境界条件として明確に機能し、学習精度の向上とポリシー表現性の向上を図っている。
われわれのMVPは、RoomimicとOGBenchのいくつかの挑戦的なロボット操作タスクに対して、最先端の成功率を達成した。
また、既存のフローベースのポリシーベースラインよりも、トレーニングと推論速度を大幅に改善します。
関連論文リスト
- SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning [52.29534291796025]
強化学習(Reinforcement learning)は、より高速な実行のためにポリシーを適用する、有望なアプローチである。
タスク実行の高速化のために事前学習されたポリシーを効率的に適応するRLベースのポリシーアクセラレーションフレームワークであるSpeedAugを提案する。
論文 参考訳(メタデータ) (2025-11-24T04:25:47Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T02:48:41Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。
オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-15T10:53:35Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。