論文の概要: Exploration-Driven Generative Interactive Environments
- arxiv url: http://arxiv.org/abs/2504.02515v1
- Date: Thu, 03 Apr 2025 12:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:24.806425
- Title: Exploration-Driven Generative Interactive Environments
- Title(参考訳): 探索駆動型生成インタラクティブ環境
- Authors: Nedko Savov, Naser Kazemi, Mohammad Mahdi, Danda Pani Paudel, Xi Wang, Luc Van Gool,
- Abstract要約: 我々は、低コストで自動収集されたインタラクションデータに多くの仮想環境を使用することに重点を置いている。
仮想環境におけるランダムエージェントのみを用いたトレーニングフレームワークを提案する。
我々のエージェントは環境固有の報酬に完全に依存しているため、新しい環境に容易に適応できる。
- 参考スコア(独自算出の注目度): 53.05314852577144
- License:
- Abstract: Modern world models require costly and time-consuming collection of large video datasets with action demonstrations by people or by environment-specific agents. To simplify training, we focus on using many virtual environments for inexpensive, automatically collected interaction data. Genie, a recent multi-environment world model, demonstrates simulation abilities of many environments with shared behavior. Unfortunately, training their model requires expensive demonstrations. Therefore, we propose a training framework merely using a random agent in virtual environments. While the model trained in this manner exhibits good controls, it is limited by the random exploration possibilities. To address this limitation, we propose AutoExplore Agent - an exploration agent that entirely relies on the uncertainty of the world model, delivering diverse data from which it can learn the best. Our agent is fully independent of environment-specific rewards and thus adapts easily to new environments. With this approach, the pretrained multi-environment model can quickly adapt to new environments achieving video fidelity and controllability improvement. In order to obtain automatically large-scale interaction datasets for pretraining, we group environments with similar behavior and controls. To this end, we annotate the behavior and controls of 974 virtual environments - a dataset that we name RetroAct. For building our model, we first create an open implementation of Genie - GenieRedux and apply enhancements and adaptations in our version GenieRedux-G. Our code and data are available at https://github.com/insait-institute/GenieRedux.
- Abstract(参考訳): 現代の世界モデルは、人や環境特化エージェントによるアクションデモを伴う大規模なビデオデータセットの費用と時間を要する。
トレーニングを簡単にするために、我々は、安価で自動収集された対話データのために、多くの仮想環境を使用することに重点を置いている。
最近のマルチ環境世界モデルであるGenieは、共有行動を持つ多くの環境のシミュレーション能力を実証している。
残念ながら、モデルのトレーニングには高価なデモが必要です。
そこで本研究では,仮想環境におけるランダムエージェントのみを用いたトレーニングフレームワークを提案する。
この方法で訓練されたモデルは良好な制御を示すが、ランダムな探索可能性によって制限される。
この制限に対処するため,我々は,世界モデルの不確実性に完全に依存する探索エージェントであるAutoExplore Agentを提案する。
我々のエージェントは環境固有の報酬に完全に依存しているため、新しい環境に容易に適応できる。
このアプローチにより、事前訓練されたマルチ環境モデルは、ビデオの忠実さと制御性の向上を達成するために、新しい環境に迅速に適応することができる。
事前学習のための大規模インタラクションデータセットを自動的に取得するために、同様の動作と制御で環境をグループ化する。
この目的のために、974の仮想環境(RetroActという名前のデータセット)の振る舞いとコントロールを注釈付けします。
モデルを構築するために、まずGenie-GenieReduxのオープン実装を作成し、GenieRedux-Gバージョンに拡張と適応を適用します。
私たちのコードとデータはhttps://github.com/insait-institute/GenieRedux.comで公開されています。
関連論文リスト
- One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - Learning Generative Interactive Environments By Trained Agent Exploration [41.94295877935867]
データ生成に強化学習に基づくエージェントを用いてモデルを改善することを提案する。
このアプローチは、モデルが順応し、うまく機能する能力を向上する多様なデータセットを生成する。
Coinrun ケーススタディの再現を含む評価の結果,GenieRedux-G は視覚的忠実度と制御性に優れていた。
論文 参考訳(メタデータ) (2024-09-10T12:00:40Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Reward-Free Curricula for Training Robust World Models [37.13175950264479]
報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。
我々は、ロバストな世界モデルをトレーニングするための報酬のない設定でカリキュラムを生成するという新しい問題に対処する。
環境インスタンス全体にわたる世界モデルにおける最大誤差を最小限に抑えるために,ミニマックス後悔が結びつくことを示す。
この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
論文 参考訳(メタデータ) (2023-06-15T15:40:04Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - Discrete Control in Real-World Driving Environments using Deep
Reinforcement Learning [2.467408627377504]
本研究では,現実の環境をゲーム環境に移行させる,現実の運転環境におけるフレームワーク(知覚,計画,制御)を紹介する。
実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。
論文 参考訳(メタデータ) (2022-11-29T04:24:03Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。