論文の概要: SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2601.03044v1
- Date: Tue, 06 Jan 2026 14:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.661931
- Title: SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
- Title(参考訳): SOP: ビジョンランゲージ・アクションモデルのためのスケーラブルなオンラインポストトレーニングシステム
- Authors: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo,
- Abstract要約: 視覚言語アクション(VLA)モデルは、大規模な事前訓練を通じて強力な一般化を実現するが、現実の展開には幅広い汎用性に加えて、専門家レベルのタスク能力が必要である。
VLAモデルの既存のトレーニング後のアプローチは、通常、オフライン、シングルロボット、タスク固有である。
本稿では,一般VLAモデルのオンライン,分散,マルチタスクのポストトレーニングを物理世界に直接適用可能なスケーラブルオンラインポストトレーニングシステムを提案する。
- 参考スコア(独自算出の注目度): 15.86316960521611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、大規模な事前訓練を通じて強力な一般化を実現するが、現実の展開には幅広い汎用性に加えて、専門家レベルのタスク能力が必要である。
既存のVLAモデルのトレーニング後のアプローチは、通常、オフライン、シングルロボット、タスク固有のもので、実世界のインタラクションから有効なオンポリシー適応とスケーラブルな学習を制限する。
本稿では,汎用VLAモデルのオンライン,分散,マルチタスクのポストトレーニングを物理世界に直接適用可能なスケーラブルオンラインポストトレーニング(SOP)システムを提案する。
SOPはクローズドループアーキテクチャを通じて実行と学習を密に結合し、ロボット群が、中央集権的なクラウド学習者に継続的にオン・ポリシーの経験と人間の介入信号をストリームし、更新されたポリシーを非同期に受信する。
この設計は、政治的修正のプロンプトをサポートし、並列デプロイメントを通じてエクスペリエンスコレクションをスケールし、適応時の一般性を維持する。
SOPはポストトレーニングアルゴリズムの選択に非依存であり、インタラクティブな模倣学習(HG-DAgger)と強化学習(RECAP)の両方でインスタンス化する。
布の折り畳み,箱組立,食料品の備蓄といった実世界の操作作業において,SOPはタスク間の単一共有ポリシを維持しつつ,大規模な事前学習型VLAモデルの性能を大幅に向上させることを示す。
効果的なポストトレーニングは実世界の相互作用の数時間以内に達成でき、パフォーマンスは艦隊内のロボットの数とほぼ直線的にスケールする。
これらの結果は,オンライン学習と艦隊規模の展開を密結合させることで,一般論的なロボット政策の物理的世界における効率的で信頼性が高く,スケーラブルなポストトレーニングが可能になることを示唆している。
関連論文リスト
- DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation [14.050551792714083]
ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。
DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T02:55:27Z) - AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI [44.06975079994439]
我々は,現実のオンライン政策学習のための統一およびシストEmであるUSERを紹介する。
UERは,複数ロボットの協調,異種マニピュレータ,大規模モデルとのエッジクラウドコラボレーション,長時間の非同期トレーニングを可能にしている。
シミュレーションと実世界の両方で、USERはCNN/MLPのオンライン模倣や強化学習、生成ポリシー、および統合パイプライン内での大規模ビジョンアクション(VLA)モデルを可能にしている。
論文 参考訳(メタデータ) (2026-02-08T06:23:43Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T17:54:09Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。