論文の概要: EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.25477v1
- Date: Mon, 25 May 2026 06:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.352648
- Title: EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models
- Title(参考訳): EXPO-FT:ビジョン・ランゲージ・アクションモデルのためのサンプル効率の良い強化学習ファインタニング
- Authors: Perry Dong, Kuo-Han Hung, Tian Gao, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: 提案するEXPO-FTは,事前学習したVLAポリシーの安定かつサンプル効率の良いRL微調整システムである。
本システムは,オンラインロボットデータの平均19.1分以内の全ての評価課題に対して,完全なタスク性能(30/30の成功)を実現する。
我々は、ロボット工学におけるVLAモデルのより広範なRLファインタニング導入を促進することを目的とした、オープンソースのロバスト性をリリースする。
- 参考スコア(独自算出の注目度): 84.73890225707264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to efficiently and reliably learn new tasks has been a foundational challenge in robotics. Vision-Language-Action (VLA) models have demonstrated strong generalization across diverse manipulation tasks, yet pretrained policies consistently fall short of the reliability required for real-world deployment. Reinforcement learning (RL) fine-tuning offers a promising path to bridge this gap, but existing approaches either train from scratch without fully leveraging pretrained priors, or fine-tune VLAs without achieving the sample efficiency and success rates that practical deployment demands. We present EXPO-FT, a system for stable, sample-efficient RL finetuning of pretrained VLA policies that closes this gap. Our system solves a suite of challenging manipulation tasks, including routing string lights and inserting the plug to light it up, striking a pool ball into a pocket, and inserting a flower into a wine bottle, each requiring combinations of high precision, dynamic actions, and robustness to varied initial states. Our system achieves perfect task performance (30/30 successes) across all evaluated tasks within an average of 19.1 minutes of online robot data, outperforming both prior RL-from-scratch and VLA finetuning approaches. We release an open-source codebase with the aim of facilitating broader adoption of RL finetuning of VLA models in robotics.
- Abstract(参考訳): 新しいタスクを効率的かつ確実に学習する能力は、ロボティクスにおける基礎的な課題である。
VLA(Vision-Language-Action)モデルは、様々な操作タスクにまたがる強力な一般化を実証しているが、事前訓練されたポリシーは、現実世界のデプロイメントに必要な信頼性を欠いている。
強化学習(RL)の微調整は、このギャップを埋めるための有望な道を提供するが、既存のアプローチでは、事前トレーニングを十分に活用することなく、ゼロからトレーニングするか、実際のデプロイメント要求のサンプル効率と成功率を達成することなく、細調整のVLAを使用する。
我々は,このギャップを埋める事前訓練されたVLAポリシーの,安定かつ試料効率の良いRL微調整システムであるEXPO-FTを提案する。
本システムでは、弦の点灯をルーティングし、プラグを差し込んで点灯し、プールボールをポケットに打ち込み、ワインボトルに花を挿入するなど、様々な操作課題を解決する。
本システムは,オンラインロボットデータの平均19.1分間において,評価されたすべてのタスクに対して,完全なタスク性能(30/30の成功)を達成し,従来のRL-from-scratchとVLAファインタニングの両手法より優れていた。
我々は,ロボット工学におけるVLAモデルのRLファインタニングの広範な採用を促進することを目的とした,オープンソースのコードベースをリリースする。
関連論文リスト
- IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation [2.7426517026004196]
VLA(Vision-Language-Action)モデルは、ジェネラリストのロボット政策において大きな可能性を示している。
彼らは、分散シフトと高品質なデモンストレーションの不足により、新しい現実世界の領域における長期の複雑なタスクへの一般化に苦慮している。
本稿では,フローベースVLAモデル用に設計された対話型強化微細チューニングシステムIG-RFTを提案する。
論文 参考訳(メタデータ) (2026-02-24T09:19:50Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy [10.596344084789434]
VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。
これらのモデルを教師付き学習で微調整することで、制限された一貫性のないデモのために堅牢なパフォーマンスを達成することができる。
我々は,オフラインとオンラインのファインチューニングで構成されるConRFTという,VLAモデルのための強化されたファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-08T05:01:17Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。