論文の概要: ScoRe-Flow: Complete Distributional Control via Score-Based Reinforcement Learning for Flow Matching
- arxiv url: http://arxiv.org/abs/2604.10962v1
- Date: Mon, 13 Apr 2026 03:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.305974
- Title: ScoRe-Flow: Complete Distributional Control via Score-Based Reinforcement Learning for Flow Matching
- Title(参考訳): ScoRe-Flow:フローマッチングのためのスコアベース強化学習による完全分散制御
- Authors: Xiaotian Qiu, Lukai Chen, Jinhao Li, Qi Sun, Cheng Zhuo, Guohao Dai,
- Abstract要約: フローマッチング(FM)ポリシーは、ロボット制御の効率的なバックボーンとして登場した。
本稿では,楽譜に基づくRLファインチューニング手法であるScoRe-Flowを提案する。
- 参考スコア(独自算出の注目度): 14.421249343302028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow Matching (FM) policies have emerged as an efficient backbone for robotic control, offering fast and expressive action generation that underpins recent large-scale embodied AI systems. However, FM policies trained via imitation learning inherit the limitations of demonstration data; surpassing suboptimal behaviors requires reinforcement learning (RL) fine-tuning. Recent methods convert deterministic flows into stochastic differential equations (SDEs) with learnable noise injection, enabling exploration and tractable likelihoods, but such noise-only control can compromise training efficiency when demonstrations already provide strong priors. We observe that modulating the drift via the score function, i.e., the gradient of log-density, steers exploration toward high-probability regions, improving stability. The score admits a closed-form expression from the velocity field, requiring no auxiliary networks. Based on this, we propose ScoRe-Flow, a score-based RL fine-tuning method that combines drift modulation with learned variance prediction to achieve decoupled control over the mean and variance of stochastic transitions. Experiments demonstrate that ScoRe-Flow achieves 2.4x faster convergence than flow-based SOTA on D4RL locomotion tasks and up to 5.4% higher success rates on Robomimic and Franka Kitchen manipulation tasks.
- Abstract(参考訳): フローマッチング(FM)ポリシは、ロボット制御の効率的なバックボーンとして登場し、最近の大規模なAIシステムを支える、高速で表現力のあるアクション生成を提供する。
しかし、模倣学習によって訓練されたFMポリシーは、実証データの制限を継承し、最適動作を超えるためには強化学習(RL)の微調整が必要である。
近年の手法では、決定論的流れを確率微分方程式(SDE)に変換し、学習可能なノイズ注入を行い、探索と抽出可能な可能性を実現するが、このようなノイズのみの制御は、デモが既に強い事前情報を提供する場合の訓練効率を損なう可能性がある。
我々は,ログ密度の勾配,高確率領域へのステアリング,安定性の向上など,スコア関数によるドリフトの変調を観察した。
スコアは速度場からのクローズドフォーム表現を認め、補助的なネットワークを必要としない。
そこで本研究では,ドリフト変調と学習した分散予測を組み合わせたスコアベースRLファインチューニング手法であるScoRe-Flowを提案し,確率遷移の平均と分散の分離制御を実現する。
実験により、ScoRe-Flowは、D4RLの移動タスクにおけるフローベースSOTAよりも2.4倍早く収束し、RoomimicおよびFranka Kitchen操作タスクにおいて最大5.4%高い成功率を達成することが示された。
関連論文リスト
- ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models [12.232846303286161]
近年,フローマッチング (FM) アクションヘッドを搭載したビジョン・ランゲージ・アクション (VLA) モデルは,複雑なロボット操作において最先端の性能を実現する。
現在の加速はビジョン・ランゲージ・モデル(VLM)のバックボーンを最適化しているが、アクションヘッドのボトルネックは見落としている。
本稿では,継続的ロボット制御のためのトレーニング不要適応推論フレームワークProbeFlowを提案する。
論文 参考訳(メタデータ) (2026-03-18T15:38:29Z) - MeanFuser: Fast One-Step Multi-Modal Trajectory Generation and Adaptive Reconstruction via MeanFlow for End-to-End Autonomous Driving [23.013043338076745]
MeanFuserはエンドツーエンドの自動運転方式だ。
GMNを導入し、生成サンプリングをガイドし、MeanFlow Identityをエンドツーエンドプランニングに適用する。
NAVSIMクローズドループベンチマークの実験は、PDMスコアの監督なしにMeanFuserが優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2026-02-23T17:17:26Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。