論文の概要: Learning Interactive Real-World Simulators
- arxiv url: http://arxiv.org/abs/2310.06114v2
- Date: Sat, 13 Jan 2024 00:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:24:01.793667
- Title: Learning Interactive Real-World Simulators
- Title(参考訳): 対話型実世界シミュレータの学習
- Authors: Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie
Kaelbling, Dale Schuurmans, Pieter Abbeel
- Abstract要約: 生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 107.12907352474005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models trained on internet data have revolutionized how text,
image, and video content can be created. Perhaps the next milestone for
generative models is to simulate realistic experience in response to actions
taken by humans, robots, and other interactive agents. Applications of a
real-world simulator range from controllable content creation in games and
movies, to training embodied agents purely in simulation that can be directly
deployed in the real world. We explore the possibility of learning a universal
simulator of real-world interaction through generative modeling. We first make
the important observation that natural datasets available for learning a
real-world simulator are often rich along different dimensions (e.g., abundant
objects in image data, densely sampled actions in robotics data, and diverse
movements in navigation data). With careful orchestration of diverse datasets,
each providing a different aspect of the overall experience, we can simulate
the visual outcome of both high-level instructions such as ``open the drawer''
and low-level controls such as "move by x, y" from otherwise static scenes and
objects. We use the simulator to train both high-level vision-language policies
and low-level reinforcement learning policies, each of which can be deployed in
the real world in zero shot after training purely in simulation. We also show
that other types of intelligence such as video captioning models can benefit
from training with simulated experience, opening up even wider applications.
Video demos can be found at https://universal-simulator.github.io.
- Abstract(参考訳): インターネットデータで訓練された生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。
生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。
実世界のシミュレータの応用は、ゲームや映画における制御可能なコンテンツ作成から、実世界に直接デプロイできる純粋にシミュレーションで具体化されたエージェントの訓練まで幅広い。
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
まず、実世界のシミュレータを学習するための自然データセットが、異なる次元(画像データに豊富なオブジェクト、ロボットデータに濃密にサンプリングされたアクション、ナビゲーションデータの多様な動きなど)に富んでいることを重要視する。
多様なデータセットを慎重にオーケストレーションすることで、それぞれが経験の異なる側面を提供することで、''open the drawer'のようなハイレベルな命令と、静的なシーンやオブジェクトから"move by x, y"のような低レベルなコントロールの両方の視覚的結果をシミュレートすることができます。
我々はシミュレータを用いて高レベル視覚言語ポリシーと低レベル強化学習ポリシーの両方を訓練し、それぞれがシミュレーションで純粋に訓練した後、ゼロショットで現実世界に展開できる。
また,ビデオキャプションモデルなど他のタイプの知性が,シミュレーション体験によるトレーニングのメリットを享受し,より広範なアプリケーションを開放できることも示す。
ビデオデモはhttps://universal-simulator.github.ioで見ることができる。
関連論文リスト
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。
そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文 参考訳(メタデータ) (2024-05-19T20:01:29Z) - Scaling Face Interaction Graph Networks to Real World Scenes [12.519862235430153]
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。
これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
論文 参考訳(メタデータ) (2024-01-22T14:38:25Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。