Fugu-MT 論文翻訳(概要): Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds

論文の概要: Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds

arxiv url: http://arxiv.org/abs/2603.18532v1
Date: Thu, 19 Mar 2026 06:22:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.981743
Title: Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds
Title（参考訳）: 生成型3次元世界を有するロボットVLAのスケーリング-----Real強化学習
Authors: Andrew Choi, Xinjie Wang, Zhizhong Su, Wei Xu,
Abstract要約: 本研究では,3次元世界生成モデルを活用することで,一般性を犠牲にすることなく,省力で視覚言語モデルを微調整できることを示す。生成したディジタルツインの品質によって実現されたシミュレート・トゥ・リアルトランスファーを実証した。
参考スコア（独自算出の注目度）: 11.056626934546507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The strong performance of large vision-language models (VLMs) trained with reinforcement learning (RL) has motivated similar approaches for fine-tuning vision-language-action (VLA) models in robotics. Many recent works fine-tune VLAs directly in the real world to avoid addressing the sim-to-real gap. While real-world RL circumvents sim-to-real issues, it inherently limits the generality of the resulting VLA, as scaling scene and object diversity in the physical world is prohibitively difficult. This leads to the paradoxical outcome of transforming a broadly pretrained model into an overfitted, scene-specific policy. Training in simulation can instead provide access to diverse scenes, but designing those scenes is also costly. In this work, we show that VLAs can be RL fine-tuned without sacrificing generality and with reduced labor by leveraging 3D world generative models. Using these models together with a language-driven scene designer, we generate hundreds of diverse interactive scenes containing unique objects and backgrounds, enabling scalable and highly parallel policy learning. Starting from a pretrained imitation baseline, our approach increases simulation success from 9.7% to 79.8% while achieving a 1.25$\times$ speedup in task completion time. We further demonstrate successful sim-to-real transfer enabled by the quality of the generated digital twins together with domain randomization, improving real-world success from 21.7% to 75% and achieving a 1.13$\times$ speedup. Finally, we further highlight the benefits of leveraging the effectively unlimited data from 3D world generative models through an ablation study showing that increasing scene diversity directly improves zero-shot generalization.
Abstract（参考訳）: 強化学習(RL)で訓練された大型視覚言語モデル(VLM)の強力な性能は、ロボット工学における微調整視覚言語モデル(VLA)に類似したアプローチを動機付けている。最近の多くの研究は、sim-to-realギャップに対処するために、現実世界で直接VLAを微調整している。現実世界のRLはシモン・トゥ・リアルの問題を回避しているが、物理的世界のスケーリングシーンとオブジェクトの多様性が違法に難しいため、結果として生じるVLAの一般性を本質的に制限する。これは、広く事前訓練されたモデルを、過度に適合し、シーン固有のポリシーに変換するという、パラドックス的な結果をもたらす。シミュレーションのトレーニングは、さまざまなシーンへのアクセスを提供するが、これらのシーンの設計にもコストがかかる。本研究では,VLAを3次元世界生成モデルを利用して,一般性を犠牲にすることなく細調整できることを示す。言語駆動のシーンデザイナと一緒にこれらのモデルを使用して、ユニークなオブジェクトや背景を含む数百の多様なインタラクティブなシーンを生成し、スケーラブルで並列なポリシー学習を可能にします。事前訓練された模倣ベースラインから始めると、タスク完了時間の1.25$\times$スピードアップを達成しながら、シミュレーションの成功率は9.7%から79.8%に向上する。さらに、生成したデジタルツインの品質とドメインランダム化を併用し、実世界の成功率を21.7%から75%に改善し、1.13$\times$スピードアップを達成することで、シム・トゥ・リアルトランスファーの成功を実証した。最後に,シーンの多様性の増大がゼロショットの一般化を直接的に改善することを示すアブレーション研究を通じて,効果的に無制限な3次元世界生成モデルから得られるデータを活用する利点をさらに強調する。

関連論文リスト

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。 Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。 3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文参考訳（メタデータ） (2026-03-02T07:23:53Z)
Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文参考訳（メタデータ） (2026-02-23T11:00:08Z)
World Action Models are Zero-shot Policies [111.91938055103633]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文参考訳（メタデータ） (2026-02-17T15:04:02Z)
WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL [30.884160045861616]
我々は、VLAポリシーの訓練後、信頼性の高い世界モデルに基づく強化学習フレームワークであるWoVRを提案する。制御可能なアクション条件付きビデオワールドモデルによってロールアウト安定性を向上させる。また、Keyframe-evolutiond Rolloutsによる効果的なエラー深度を低減するために、想像上のインタラクションを再確認する。
論文参考訳（メタデータ） (2026-02-15T03:48:20Z)
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文参考訳（メタデータ） (2025-07-21T13:19:09Z)
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文参考訳（メタデータ） (2025-05-09T05:32:40Z)
Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。 2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文参考訳（メタデータ） (2024-04-26T10:18:17Z)
GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation [31.702907860448477]
GenH2Rは、一般化可能なビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学ぶためのフレームワークである。我々は、H2Rハンドオーバを包括的解を用いて大規模に学習することで、そのような一般化可能性を得る。大規模3次元モデルレポジトリ、デクスタラスグリップ生成方法、曲線ベースの3次元アニメーションを活用している。
論文参考訳（メタデータ） (2024-01-01T18:20:43Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。