論文の概要: Mastering Diverse Domains through World Models
- arxiv url: http://arxiv.org/abs/2301.04104v1
- Date: Tue, 10 Jan 2023 18:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:19:27.192322
- Title: Mastering Diverse Domains through World Models
- Title(参考訳): 世界モデルによる海外ドメインのマスタリング
- Authors: Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap
- Abstract要約: 汎用インテリジェンスには、多くのドメインにわたるタスクの解決が必要である。
本研究では,世界モデルに基づく拡張強化学習アルゴリズムDreamerV3を提案する。
DreamerV3は、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
- 参考スコア(独自算出の注目度): 34.87345839233085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General intelligence requires solving tasks across many domains. Current
reinforcement learning algorithms carry this potential but are held back by the
resources and knowledge required to tune them for new tasks. We present
DreamerV3, a general and scalable algorithm based on world models that
outperforms previous approaches across a wide range of domains with fixed
hyperparameters. These domains include continuous and discrete actions, visual
and low-dimensional inputs, 2D and 3D worlds, different data budgets, reward
frequencies, and reward scales. We observe favorable scaling properties of
DreamerV3, with larger models directly translating to higher data-efficiency
and final performance. Applied out of the box, DreamerV3 is the first algorithm
to collect diamonds in Minecraft from scratch without human data or curricula,
a long-standing challenge in artificial intelligence. Our general algorithm
makes reinforcement learning broadly applicable and allows scaling to hard
decision making problems.
- Abstract(参考訳): 汎用インテリジェンスには、多くのドメインにわたるタスクの解決が必要である。
現在の強化学習アルゴリズムはこの可能性を秘めているが、新しいタスクに調整するために必要なリソースと知識に支えられている。
本稿では,世界モデルに基づく汎用かつスケーラブルなアルゴリズムであるDreamerV3について述べる。
これらのドメインには、連続的かつ離散的なアクション、視覚的および低次元の入力、2Dおよび3Dの世界、異なるデータ予算、報酬頻度、報酬スケールが含まれる。
我々はDreamerV3の優れたスケーリング特性を観察し、より大きなモデルでデータ効率と最終的な性能を直接変換する。
DreamerV3は、人間のデータやカリキュラムを使わずにMinecraftのダイヤモンドをゼロから収集する最初のアルゴリズムだ。
我々の一般的なアルゴリズムは、強化学習を広く適用し、難しい意思決定問題へのスケーリングを可能にします。
関連論文リスト
- Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z) - An Embodied Generalist Agent in 3D World [69.4042892362275]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Explainable, Domain-Adaptive, and Federated Artificial Intelligence in
Medicine [5.126042819606137]
我々は、AIによる医療意思決定における特定の課題に対処する3つの主要な方法論的アプローチに焦点を当てる。
ドメイン適応と転送学習により、AIモデルをトレーニングし、複数のドメインにわたって適用することができる。
フェデレーテッド・ラーニングは、機密性の高い個人情報を漏らさずに大規模なモデルを学習することを可能にする。
論文 参考訳(メタデータ) (2022-11-17T03:32:00Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - 3D_DEN: Open-ended 3D Object Recognition using Dynamically Expandable
Networks [0.0]
本研究では,新しい3Dオブジェクトカテゴリをオープンエンドで学習できるロボットを実現するために,動的アーキテクチャに基づく新しい深層移動学習手法を提案する。
実験結果から,提案手法は精度に優れ,計算オーバーヘッドを大幅に最小化できることがわかった。
論文 参考訳(メタデータ) (2020-09-15T16:44:18Z) - Joint Supervised and Self-Supervised Learning for 3D Real-World
Challenges [16.328866317851187]
ポイントクラウド処理と3D形状理解は、ディープラーニング技術が大きな可能性を実証する難しいタスクである。
ここでは、データ不足と大きなドメインギャップにより教師付き学習が失敗する合成および実世界の点雲を含むいくつかのシナリオについて考察する。
形状分類や部分分割の主課題を学習しながら3次元パズルを解くマルチタスクモデルにより、自己超越を利用して、標準的な特徴表現を豊かにすることを提案する。
論文 参考訳(メタデータ) (2020-04-15T23:34:03Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。