論文の概要: Interactive Post-Training for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2505.17016v1
- Date: Thu, 22 May 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.561495
- Title: Interactive Post-Training for Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクション・モデルのためのインタラクティブ・ポスト・トレーニング
- Authors: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl,
- Abstract要約: RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。
RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。
1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
- 参考スコア(独自算出の注目度): 28.32397816792674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.
- Abstract(参考訳): 簡単な拡張学習に基づく対話型ポストトレーニングパラダイムであるRIPT-VLAを導入する。
既存のVLAトレーニングパイプラインは、オフラインの専門家による実証データに大きく依存し、模倣を監督し、低データ体制の下で新しいタスクや環境に適応する能力を制限する。
RIPT-VLAは,動的ロールアウトサンプリングとアウト・ワン・アウト・アドバンテージ推定に基づく安定なポリシー最適化アルゴリズムを用いて,インタラクティブなポストトレーニングを可能にすることで,この問題に対処する。
RIPT-VLAには以下の特徴がある。
まず、様々なVLAモデルに適用され、軽量のQueSTモデルを21.2%改善し、7B OpenVLA-OFTモデルを97.5%の成功率に改善した。
第2に、計算効率が良く、データ効率が良い:1つのデモンストレーションだけで、RIPT-VLAは、作業不能なSFTモデル(4%)を15イテレーションで97%の成功率で成功させることができる。
さらに、RIPT-VLAが学習したポリシーが様々なタスクやシナリオにまたがって一般化し、初期状態のコンテキストに対して堅牢であることを示す。
これらの結果から, RIPT-VLAは, 最小限の監督を通じて, VLAモデルを訓練後評価するための実践的で効果的なパラダイムとして注目されている。
関連論文リスト
- Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。