論文の概要: ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.22094v3
- Date: Wed, 11 Jun 2025 07:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.219823
- Title: ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
- Title(参考訳): ReinFlow: オンライン強化学習による微調整フローマッチングポリシ
- Authors: Tonghe Zhang, Chao Yu, Sichang Su, Yu Wang,
- Abstract要約: ReinFlowは、継続的ロボット制御のためのオンライン強化学習フレームワークである。
学習可能なノイズをフローポリシーの決定論的パスに注入し、フローを離散時間マルコフプロセスに変換する。
代表的な移動と操作タスクでReinFlowをベンチマークします。
- 参考スコア(独自算出の注目度): 6.0637712423023205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ReinFlow, a simple yet effective online reinforcement learning (RL) framework that fine-tunes a family of flow matching policies for continuous robotic control. Derived from rigorous RL theory, ReinFlow injects learnable noise into a flow policy's deterministic path, converting the flow into a discrete-time Markov Process for exact and straightforward likelihood computation. This conversion facilitates exploration and ensures training stability, enabling ReinFlow to fine-tune diverse flow model variants, including Rectified Flow [35] and Shortcut Models [19], particularly at very few or even one denoising step. We benchmark ReinFlow in representative locomotion and manipulation tasks, including long-horizon planning with visual input and sparse reward. The episode reward of Rectified Flow policies obtained an average net growth of 135.36% after fine-tuning in challenging legged locomotion tasks while saving denoising steps and 82.63% of wall time compared to state-of-the-art diffusion RL fine-tuning method DPPO [43]. The success rate of the Shortcut Model policies in state and visual manipulation tasks achieved an average net increase of 40.34% after fine-tuning with ReinFlow at four or even one denoising step, whose performance is comparable to fine-tuned DDIM policies while saving computation time for an average of 23.20%. Project webpage: https://reinflow.github.io/
- Abstract(参考訳): ReinFlowは、連続ロボット制御のためのフローマッチングポリシーのファミリーを微調整する、シンプルで効果的なオンライン強化学習(RL)フレームワークである。
厳密なRL理論から派生したReinFlowは、学習可能なノイズをフローポリシーの決定論的経路に注入し、フローを離散時間マルコフプロセスに変換して、正確かつ簡単な近似計算を行う。
これによってReinFlowは,Rectified Flow [35] や Shortcut Models [19] など,さまざまなフローモデルバリアントを微調整することが可能になります。
我々はReinFlowを視覚入力とスパース報酬を備えた長期計画を含む代表的移動と操作タスクでベンチマークする。
Rectified Flow ポリシーのエピソード報酬は,難解な歩行作業の微調整後の平均純成長が135.36%,復調ステップが82.63%であったのに対し,最新拡散RL微調整法DPPO[43]は82.63%であった。
状態および視覚操作タスクにおけるショートカットモデルポリシーの成功率は、ReinFlowを4つまたは1つのデノナイジングステップで微調整し、平均23.20%の計算時間を節約しながら、微調整されたDDIMポリシーに匹敵するパフォーマンスで平均40.34%増加した。
プロジェクトWebページ: https://reinflow.github.io/
関連論文リスト
- Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator [73.80050807279461]
Piecewise Rectified Flow (PeRFlow) は拡散モデルの高速化のためのフローベース手法である。
PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-13T07:10:53Z) - Context-Aware Iteration Policy Network for Efficient Optical Flow
Estimation [19.077966606237897]
我々は,効率的な光フロー推定のためのコンテキスト認識反復ポリシーネットワークを開発した。
Sintel/KITTIデータセットのFLOPを約40%/20%削減しながら性能を維持できる。
論文 参考訳(メタデータ) (2023-12-12T11:27:13Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Normalizing flow neural networks by JKO scheme [22.320632565424745]
我々はJKO-iFlowと呼ばれるニューラルネットワークを開発し、Jordan-Kinderleherer-Ottoスキームに触発された。
提案手法は,残余ブロックを次々と積み重ねることにより,残余ブロックの効率的なブロックワイズ訓練を可能にする。
合成および実データを用いた実験により,提案したJKO-iFlowネットワークが競合性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-12-29T18:55:00Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。