論文の概要: Genie: Generative Interactive Environments
- arxiv url: http://arxiv.org/abs/2402.15391v1
- Date: Fri, 23 Feb 2024 15:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:13:19.022430
- Title: Genie: Generative Interactive Environments
- Title(参考訳): Genie: インタラクティブな生成環境
- Authors: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge
Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris
Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas
Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei
Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim
Rockt\"aschel
- Abstract要約: 我々は、未学習のインターネットビデオから教師なしで訓練された最初の生成型インタラクティブ環境であるGenieを紹介する。
このモデルは、テキスト、合成画像、スケッチを通して記述されたさまざまなアクション制御可能な仮想世界を生成するよう促すことができる。
- 参考スコア(独自算出の注目度): 44.65662949794694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Genie, the first generative interactive environment trained in
an unsupervised manner from unlabelled Internet videos. The model can be
prompted to generate an endless variety of action-controllable virtual worlds
described through text, synthetic images, photographs, and even sketches. At
11B parameters, Genie can be considered a foundation world model. It is
comprised of a spatiotemporal video tokenizer, an autoregressive dynamics
model, and a simple and scalable latent action model. Genie enables users to
act in the generated environments on a frame-by-frame basis despite training
without any ground-truth action labels or other domain-specific requirements
typically found in the world model literature. Further the resulting learned
latent action space facilitates training agents to imitate behaviors from
unseen videos, opening the path for training generalist agents of the future.
- Abstract(参考訳): 我々は、未学習のインターネットビデオから教師なしで訓練された最初の生成インタラクティブ環境Genieを紹介する。
このモデルは、テキスト、合成画像、写真、スケッチを通して記述された、無限に多様なアクション制御可能な仮想世界を生成するよう促すことができる。
11Bパラメータでは、Genieは基礎世界モデルと見なすことができる。
時空間ビデオトークン化器、自己回帰ダイナミクスモデル、単純でスケーラブルな潜在アクションモデルで構成されている。
Genieは、ワールドモデル文献で典型的に見られる基本的なアクションラベルやその他のドメイン固有の要件を使わずに、生成された環境をフレーム単位で動作させることができる。
さらに、学習された潜在活動空間は、未発見の動画からの行動を模倣する訓練エージェントを容易にし、未来のジェネラリストエージェントを訓練するための道を開く。
関連論文リスト
- Learning Generative Interactive Environments By Trained Agent Exploration [41.94295877935867]
データ生成に強化学習に基づくエージェントを用いてモデルを改善することを提案する。
このアプローチは、モデルが順応し、うまく機能する能力を向上する多様なデータセットを生成する。
Coinrun ケーススタディの再現を含む評価の結果,GenieRedux-G は視覚的忠実度と制御性に優れていた。
論文 参考訳(メタデータ) (2024-09-10T12:00:40Z) - Pandora: Towards General World Model with Natural Language Actions and Video States [61.30962762314734]
Pandoraは、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自動回帰拡散モデルである。
Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。
論文 参考訳(メタデータ) (2024-06-12T18:55:51Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。