Fugu-MT 論文翻訳(概要): Learning Interactive Real-World Simulators

論文の概要: Learning Interactive Real-World Simulators

arxiv url: http://arxiv.org/abs/2310.06114v3
Date: Thu, 26 Sep 2024 17:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 10:01:09.840343
Title: Learning Interactive Real-World Simulators
Title（参考訳）: 対話型実世界シミュレータの学習
Authors: Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel,
Abstract要約: 生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
参考スコア（独自算出の注目度）: 96.5991333400566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different dimensions (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, we can simulate the visual outcome of both high-level instructions such as "open the drawer" and low-level controls from otherwise static scenes and objects. We use the simulator to train both high-level vision-language policies and low-level reinforcement learning policies, each of which can be deployed in the real world in zero shot after training purely in simulation. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io.
Abstract（参考訳）: インターネットデータでトレーニングされた生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。実世界のシミュレーターの応用は、ゲームや映画の制御可能なコンテンツ作成から、実世界で直接デプロイできるシミュレーションで純粋にエンボディされたエージェントを訓練することまで様々である。生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。まず、実世界のシミュレータを学習するために利用可能な自然データセットが、しばしば異なる次元(画像データにおける豊富なオブジェクト、ロボットデータにおける密集したアクション、ナビゲーションデータにおける多様な動き)に沿ってリッチである、という重要な観察を行う。多様なデータセットを慎重にオーケストレーションし、それぞれが経験の異なる側面を提供することにより、静的なシーンやオブジェクトから"引き出しを開く"といった高レベルの命令と低レベルのコントロールの両方の視覚的な結果をシミュレートすることができます。我々はシミュレータを用いて高レベル視覚言語ポリシーと低レベル強化学習ポリシーの両方を訓練し、それぞれがシミュレーションで純粋に訓練した後、ゼロショットで現実世界に展開できる。また、ビデオキャプションモデルのような他のインテリジェンスも、シミュレーション体験によるトレーニングの恩恵を受け、より広い範囲のアプリケーションを開くことができることを示す。ビデオデモはhttps://universal-simulator.github.io.comで見ることができる。

関連論文リスト

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation [40.96453435496208]
本稿では,視覚に基づくロボット操作課題を解決するためにシミュレーションデータを利用する手法を提案する。ロボットアームとヒューマノイドの2つの領域を用いて,シミュレーションデータにより実世界のタスク性能を平均38%向上させることができることを示した。
論文参考訳（メタデータ） (2025-03-31T17:39:38Z)
Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos [61.925837909969815]
我々は,インターネット上のRGBビデオを利用して日常の人間行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介した。本手法は投球のような複雑で困難なタスクを含む,そのようなタスクに対するRLポリシーのトレーニングに成功している。生成したシミュレーションデータは,一般的なポリシをトレーニングするためにスケールアップ可能であり,Real2Sim2Real方式で実ロボットに転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-14T03:22:03Z)
Robot Learning with Super-Linear Scaling [20.730206708381704]
CASHERは、データ収集と学習をシミュレーションでスケールアップするためのパイプラインであり、パフォーマンスは人間の努力と超直線的にスケールする。そこで我々は,CASHERにより,人的努力を伴わないビデオスキャンにより,事前学習したポリシーを目標シナリオに微調整できることを示す。
論文参考訳（メタデータ） (2024-12-02T18:12:02Z)
URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文参考訳（メタデータ） (2024-05-19T20:01:29Z)
Scaling Face Interaction Graph Networks to Real World Scenes [12.519862235430153]
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
論文参考訳（メタデータ） (2024-01-22T14:38:25Z)
Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文参考訳（メタデータ） (2022-10-25T17:50:36Z)
DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文参考訳（メタデータ） (2022-10-25T01:51:36Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。 DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文参考訳（メタデータ） (2021-04-30T15:30:05Z)
SimAug: Learning Robust Representations from Simulation for Trajectory Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文参考訳（メタデータ） (2020-04-04T21:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。