論文の概要: $π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.25889v1
- Date: Wed, 29 Oct 2025 18:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.541001
- Title: $π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
- Title(参考訳): $π_\texttt{RL}$:フローベース視覚言語モデルのためのオンラインRLファインタニング
- Authors: Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu,
- Abstract要約: $pi_textRL$は、並列シミュレーションでフローベースのVision-Language-Action(VLA)モデルをトレーニングするためのオープンソースのフレームワークである。
$pi_textRL$は、数ショットのSFTモデルに$pi_0.5$を57.6%から97.6%へ、それぞれ77.1%から98.3%へ引き上げる。
ManiSkillでは、320の並列環境で$pi_textRL$をトレーニングし、$pi_textRL$を41.6%から85.7%、$pi_0.5に改善します。
- 参考スコア(独自算出の注目度): 76.66547858171452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models enable robots to understand and perform complex tasks from multimodal input. Although recent work explores using reinforcement learning (RL) to automate the laborious data collection process in scaling supervised fine-tuning (SFT), applying large-scale RL to flow-based VLAs (e.g., $\pi_0$, $\pi_{0.5}$) remains challenging due to intractable action log-likelihoods from iterative denoising. We address this challenge with $\pi_{\text{RL}}$, an open-source framework for training flow-based VLAs in parallel simulation. $\pi_{\text{RL}}$ implements two RL algorithms: (1) {Flow-Noise} models the denoising process as a discrete-time MDP with a learnable noise network for exact log-likelihood computation. (2) {Flow-SDE} integrates denoising with agent-environment interaction, formulating a two-layer MDP that employs ODE-to-SDE conversion for efficient RL exploration. We evaluate $\pi_{\text{RL}}$ on LIBERO and ManiSkill benchmarks. On LIBERO, $\pi_{\text{RL}}$ boosts few-shot SFT models $\pi_0$ and $\pi_{0.5}$ from 57.6% to 97.6% and from 77.1% to 98.3%, respectively. In ManiSkill, we train $\pi_{\text{RL}}$ in 320 parallel environments, improving $\pi_0$ from 41.6% to 85.7% and $\pi_{0.5}$ from 40.0% to 84.8% across 4352 pick-and-place tasks, demonstrating scalable multitask RL under heterogeneous simulation. Overall, $\pi_{\text{RL}}$ achieves significant performance gains and stronger generalization over SFT-models, validating the effectiveness of online RL for flow-based VLAs.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボットがマルチモーダル入力から複雑なタスクを理解し実行できるようにするモデルである。
最近の研究は、強化学習(RL)を用いて教師付き微調整(SFT)のスケーリングにおいて、精巧なデータ収集プロセスを自動化しているが、フローベースのVLA(例えば、$\pi_0$, $\pi_{0.5}$)に大規模RLを適用することは、反復的復調による難易度の高いアクションログの類似性のため、依然として困難である。
並列シミュレーションでフローベースのVLAをトレーニングするためのオープンソースのフレームワークである$\pi_{\text{RL}}$でこの問題に対処する。
1) {Flow-Noise} は、復調処理を離散時間 MDP としてモデル化し、学習可能なノイズネットワークを用いて、正確なログライクな計算を行う。
2) {Flow-SDE} は, ODE-to-SDE変換を用いた2層MDPを定式化し, 効率的なRL探索を行う。
We evaluate $\pi_{\text{RL}}$ on LIBERO and ManiSkill benchmarks。
LIBEROでは、$\pi_{\text{RL}}$は数ショットのSFTモデル$\pi_0$と$\pi_{0.5}$を57.6%から97.6%に、それぞれ77.1%から98.3%に引き上げる。
ManiSkillでは、320の並列環境で$\pi_{\text{RL}}$をトレーニングし、41.6%から85.7%、$\pi_{0.5}$を4352タスクの40.0%から84.8%に改善し、異種シミュレーションの下でスケーラブルなマルチタスクRLを実証する。
全体として、$\pi_{\text{RL}}$は、フローベースのVLAに対するオンラインRLの有効性を検証し、SFTモデルよりも大きなパフォーマンス向上と強力な一般化を実現している。
関連論文リスト
- AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking [43.275370104552344]
人間の脳は、同様のパラメータを持つ大きな言語モデルよりもはるかにエネルギー効率が高い。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
SpikeLLMは11.01%のWikiText2の複雑さを低減し、一般的なシーン推論の2.55%の精度を改善する。
論文 参考訳(メタデータ) (2024-07-05T08:37:17Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Representation Learning for Online and Offline RL in Low-rank MDPs [36.398511188102205]
我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。
FLAMBEで使用されるのと同じオーラクルで操作するオンライン環境では、RLのためのREP-UCBアッパー信頼境界表現学習アルゴリズムを提案する。
オフラインのRL設定では、ペシミズムを利用して部分被覆条件下で学習するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-10-09T22:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。