論文の概要: $π^{*}_{0.6}$: a VLA That Learns From Experience
- arxiv url: http://arxiv.org/abs/2511.14759v2
- Date: Wed, 19 Nov 2025 04:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.149949
- Title: $π^{*}_{0.6}$: a VLA That Learns From Experience
- Title(参考訳): π^{*}_{0.6}$: 経験から学ぶVLA
- Authors: Physical Intelligence, Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, Kevin Black, Ken Conley, Grace Connors, James Darpinian, Karan Dhabalia, Jared DiCarlo, Danny Driess, Michael Equi, Adnan Esmail, Yunhao Fang, Chelsea Finn, Catherine Glossop, Thomas Godden, Ivan Goryachev, Lachy Groom, Hunter Hancock, Karol Hausman, Gashon Hussein, Brian Ichter, Szymon Jakubczak, Rowan Jen, Tim Jones, Ben Katz, Liyiming Ke, Chandra Kuchi, Marinda Lamb, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Yao Lu, Vishnu Mano, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Charvi Sharma, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, Will Stoeckle, Alex Swerdlow, James Tanner, Marcel Torne, Quan Vuong, Anna Walling, Haohuan Wang, Blake Williams, Sukwon Yoo, Lili Yu, Ury Zhilinsky, Zhiyuan Zhou,
- Abstract要約: 我々は、強化学習(RL)による実世界の展開を通して、視覚言語アクション(VLA)モデルがどのように改善できるかを検討する。
本稿では,Advantage- Conditioned Policies (RECAP) を用いた汎用RL法について述べる。
フルRECAP法でトレーニングした*_0.6$モデルは、実際の家庭で洗濯物を折り畳み、箱を確実に組み立て、プロのエスプレッソマシンを使ってエスプレッソドリンクを作ることができる。
- 参考スコア(独自算出の注目度): 66.7589999175632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how vision-language-action (VLA) models can improve through real-world deployments via reinforcement learning (RL). We present a general-purpose method, RL with Experience and Corrections via Advantage-conditioned Policies (RECAP), that provides for RL training of VLAs via advantage conditioning. Our method incorporates heterogeneous data into the self-improvement process, including demonstrations, data from on-policy collection, and expert teleoperated interventions provided during autonomous execution. RECAP starts by pre-training a generalist VLA with offline RL, which we call $π^{*}_{0.6}$, that can then be specialized to attain high performance on downstream tasks through on-robot data collection. We show that the $π^{*}_{0.6}$ model trained with the full RECAP method can fold laundry in real homes, reliably assemble boxes, and make espresso drinks using a professional espresso machine. On some of the hardest tasks, RECAP more than doubles task throughput and roughly halves the task failure rate.
- Abstract(参考訳): 本稿では,視覚言語行動(VLA)モデルが実世界の展開を通じて,強化学習(RL)を通してどのように改善できるかを検討する。
本稿では,Advantage-conditioned Policies (RECAP) による経験と補正を併用した汎用的なRL法を提案する。
本手法では, 自己改善プロセスに異種データを組み込んで, デモ, オンライン収集データ, 自律実行時に提供される専門家の遠隔操作的介入などを行う。
RECAPは、オフラインのRLでジェネラリストのVLAを事前トレーニングすることから始まり、それを$π^{*}_{0.6}$と呼び、オンボットデータ収集を通じて下流タスクで高いパフォーマンスを達成するように特化することができる。
完全RECAP法で訓練された$π^{*}_{0.6}$モデルは、実際の家庭で洗濯物を折り畳み、箱を確実に組み立て、プロのエスプレッソマシンを用いてエスプレッソドリンクを作ることができる。
最も難しいタスクのいくつかでは、RECAPはタスクのスループットを2倍以上にし、タスクの失敗率をほぼ半分にします。
関連論文リスト
- Self-Improving Vision-Language-Action Models with Data Generation via Residual RL [29.682761652941963]
Probe, Learn, Distill (PLD)は3段階のプラグイン・アンド・プレイフレームワークで、視覚言語アクションモデルを改善する。
PLDはLIBEROでほぼ飽和した99%のタスク成功、SimplerEnvで50%以上、実世界のFrankaとYAMのアーム操作タスクで100%成功している。
論文 参考訳(メタデータ) (2025-10-30T06:24:04Z) - Residual Off-Policy RL for Finetuning Behavior Cloning Policies [41.99435186991878]
本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。
提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
論文 参考訳(メタデータ) (2025-09-23T17:59:46Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - Refined Policy Distillation: From VLA Generalists to RL Experts [18.186499704928092]
本稿では,新しい強化学習型政策精錬法であるRefined Policy Distillation (RPD)を紹介する。
RPDはVision-Language-Action Models (VLA) を、コンパクトで高性能な専門家ポリシーに精錬・精錬する。
実験結果から,RL の学生は VLA の教師に対して,高密度かつ疎度な報酬設定で優れた専門家ポリシーを学習することができることがわかった。
論文 参考訳(メタデータ) (2025-03-06T12:52:11Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。