論文の概要: Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2605.00416v1
- Date: Fri, 01 May 2026 05:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.856693
- Title: Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies
- Title(参考訳): デプロイ中の学習:ジェネラリストロボット政策のためのフリートスケール強化学習
- Authors: Yi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu, Jeffrey Wu, Jianheng Song, Xinlin Ren, Jingshun Huang, Mingjie Pan, Siyuan Feng, Zhi Chen, Jianlan Luo,
- Abstract要約: 汎用的なロボットポリシーは、大規模な事前トレーニングの恩恵を受ける傾向にあるが、オフラインデータだけでは、堅牢な現実世界のデプロイメントには不十分である。
本稿では,VLA(Vision-Language-Action)ポリシーの継続学習のための,艦隊規模のオフライン-オンライン強化学習フレームワークであるLWDを紹介する。
- 参考スコア(独自算出の注目度): 23.266003019334438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.
- Abstract(参考訳): 汎用的なロボットポリシーは、大規模な事前トレーニングの恩恵を受ける傾向にあるが、オフラインデータだけでは、堅牢な現実世界のデプロイメントには不十分である。
デプロイされたロボットは、分散シフト、ロングテール障害、タスクのバリエーション、固定されたデモデータセットが完全にキャプチャできない人間の修正機会に遭遇する。
本稿では,VLA(Vision-Language-Action)ポリシーの継続学習のための,艦隊規模のオフライン-オンライン強化学習フレームワークであるLWDを紹介する。
事前訓練されたVLAポリシから始めて、LWDは、ロボット群全体で収集された自律的なロールアウトと人間の介入を使用することで、デプロイメント、共有された物理的エクスペリエンス、ポリシー改善、再デプロイの間のループを閉じる。
不均一でスパース・リワードな艦隊データからの学習を安定させるために、LWDは分散インプリシット・バリュー・ラーニング(DIVL)と、フローベースのVLAアクションジェネレータのポリシー抽出のための随伴マッチング(QAM)によるQ-ラーニングを組み合わせた。
LWDは、セマンティック・グロサリー・リストックや3~5分のロングホライゾン・タスクを含む8つの実世界の操作タスクにまたがる16のデュアルアーム・ロボット群で検証する。
単一のジェネラリスト政策は、艦隊経験が蓄積するにつれて改善され、平均95%の成功率に達する。
関連論文リスト
- RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks [28.827331437876452]
データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
論文 参考訳(メタデータ) (2026-03-12T05:22:59Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - SOP: A Scalable Online Post-Training System for Vision-Language-Action Models [15.86316960521611]
視覚言語アクション(VLA)モデルは、大規模な事前訓練を通じて強力な一般化を実現するが、現実の展開には幅広い汎用性に加えて、専門家レベルのタスク能力が必要である。
VLAモデルの既存のトレーニング後のアプローチは、通常、オフライン、シングルロボット、タスク固有である。
本稿では,一般VLAモデルのオンライン,分散,マルチタスクのポストトレーニングを物理世界に直接適用可能なスケーラブルオンラインポストトレーニングシステムを提案する。
論文 参考訳(メタデータ) (2026-01-06T14:25:11Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。