論文の概要: MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real
- arxiv url: http://arxiv.org/abs/2507.02864v1
- Date: Thu, 03 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.884926
- Title: MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real
- Title(参考訳): MultiGen:マルチモーダル・ジェネレーションを用いたシミュレーションによるマルチモーダル・ポリシーの学習
- Authors: Renhao Wang, Haoran Geng, Tingle Li, Feishi Wang, Gopala Anumanchipalli, Philipp Wu, Trevor Darrell, Boyi Li, Pieter Abbeel, Jitendra Malik, Alexei A. Efros,
- Abstract要約: MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。
容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
- 参考スコア(独自算出の注目度): 128.7629907902049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots must integrate multiple sensory modalities to act effectively in the real world. Yet, learning such multimodal policies at scale remains challenging. Simulation offers a viable solution, but while vision has benefited from high-fidelity simulators, other modalities (e.g. sound) can be notoriously difficult to simulate. As a result, sim-to-real transfer has succeeded primarily in vision-based tasks, with multimodal transfer still largely unrealized. In this work, we tackle these challenges by introducing MultiGen, a framework that integrates large-scale generative models into traditional physics simulators, enabling multisensory simulation. We showcase our framework on the dynamic task of robot pouring, which inherently relies on multimodal feedback. By synthesizing realistic audio conditioned on simulation video, our method enables training on rich audiovisual trajectories -- without any real robot data. We demonstrate effective zero-shot transfer to real-world pouring with novel containers and liquids, highlighting the potential of generative modeling to both simulate hard-to-model modalities and close the multimodal sim-to-real gap.
- Abstract(参考訳): ロボットは現実世界で効果的に行動するために、複数の感覚モダリティを統合する必要がある。
しかし、このようなマルチモーダルなポリシーを大規模に学習することは依然として困難である。
シミュレーションは実現可能な解決策を提供するが、高忠実度シミュレータの恩恵を受けている一方で、他のモダリティ(例えば音)はシミュレートするのが非常に難しい。
その結果、sim-to-real転送は主に視覚に基づくタスクで成功し、マルチモーダル転送は依然としてほとんど実現されていない。
本研究では,大規模生成モデルを従来の物理シミュレータに統合し,マルチ感覚シミュレーションを可能にするフレームワークであるMultiGenを導入することで,これらの課題に対処する。
本稿では,マルチモーダルフィードバックに本質的に依存するロボットの注ぐ動的タスクに関する枠組みを紹介する。
シミュレーションビデオ上で現実的なオーディオ条件を合成することにより、実際のロボットデータを使わずに、リッチな視覚的軌跡の訓練を可能にする。
実世界の容器や液体を注ぐ実世界への効果的なゼロショット転送を実証し, モデル間のハード・トゥ・モデル・モダリティをシミュレートし, マルチモーダル・シム・トゥ・リアルギャップを閉じるための生成モデルの可能性を強調した。
関連論文リスト
- RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - From Abstraction to Reality: DARPA's Vision for Robust Sim-to-Real Autonomy [6.402441477393285]
TIAMATは、動的および複雑な環境にまたがる自律技術の迅速かつ堅牢な移行に取り組むことを目的としている。
現在のシミュレート・トゥ・リアル(シミュレート・トゥ・リアル)転送の方法は、しばしば高忠実度シミュレーションに依存している。
TIAMATのアプローチは、効果的かつ迅速な現実世界適応のための抽象的から現実的移行を実現することを目的としている。
論文 参考訳(メタデータ) (2025-03-14T02:06:10Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。
本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。
我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文 参考訳(メタデータ) (2024-03-21T22:18:59Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。