論文の概要: Learning Interactive Real-World Simulators
- arxiv url: http://arxiv.org/abs/2310.06114v3
- Date: Thu, 26 Sep 2024 17:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 10:01:09.840343
- Title: Learning Interactive Real-World Simulators
- Title(参考訳): 対話型実世界シミュレータの学習
- Authors: Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel,
- Abstract要約: 生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 96.5991333400566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different dimensions (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, we can simulate the visual outcome of both high-level instructions such as "open the drawer" and low-level controls from otherwise static scenes and objects. We use the simulator to train both high-level vision-language policies and low-level reinforcement learning policies, each of which can be deployed in the real world in zero shot after training purely in simulation. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io.
- Abstract(参考訳): インターネットデータでトレーニングされた生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。
生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。
実世界のシミュレーターの応用は、ゲームや映画の制御可能なコンテンツ作成から、実世界で直接デプロイできるシミュレーションで純粋にエンボディされたエージェントを訓練することまで様々である。
生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。
まず、実世界のシミュレータを学習するために利用可能な自然データセットが、しばしば異なる次元(画像データにおける豊富なオブジェクト、ロボットデータにおける密集したアクション、ナビゲーションデータにおける多様な動き)に沿ってリッチである、という重要な観察を行う。
多様なデータセットを慎重にオーケストレーションし、それぞれが経験の異なる側面を提供することにより、静的なシーンやオブジェクトから"引き出しを開く"といった高レベルの命令と低レベルのコントロールの両方の視覚的な結果をシミュレートすることができます。
我々はシミュレータを用いて高レベル視覚言語ポリシーと低レベル強化学習ポリシーの両方を訓練し、それぞれがシミュレーションで純粋に訓練した後、ゼロショットで現実世界に展開できる。
また、ビデオキャプションモデルのような他のインテリジェンスも、シミュレーション体験によるトレーニングの恩恵を受け、より広い範囲のアプリケーションを開くことができることを示す。
ビデオデモはhttps://universal-simulator.github.io.comで見ることができる。
関連論文リスト
- URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。
そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文 参考訳(メタデータ) (2024-05-19T20:01:29Z) - Scaling Face Interaction Graph Networks to Real World Scenes [12.519862235430153]
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。
これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
論文 参考訳(メタデータ) (2024-01-22T14:38:25Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。