論文の概要: Mastering Diverse Domains through World Models
- arxiv url: http://arxiv.org/abs/2301.04104v2
- Date: Wed, 17 Apr 2024 17:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:59:48.029717
- Title: Mastering Diverse Domains through World Models
- Title(参考訳): 世界モデルによる多言語ドメインのマスタリング
- Authors: Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap,
- Abstract要約: 本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。
Dreamerは、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
- 参考スコア(独自算出の注目度): 43.382115013586535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence. Although current reinforcement learning algorithms can be readily applied to tasks similar to what they have been developed for, configuring them for new application domains requires significant human expertise and experimentation. We present DreamerV3, a general algorithm that outperforms specialized methods across over 150 diverse tasks, with a single configuration. Dreamer learns a model of the environment and improves its behavior by imagining future scenarios. Robustness techniques based on normalization, balancing, and transformations enable stable learning across domains. Applied out of the box, Dreamer is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula. This achievement has been posed as a significant challenge in artificial intelligence that requires exploring farsighted strategies from pixels and sparse rewards in an open world. Our work allows solving challenging control problems without extensive experimentation, making reinforcement learning broadly applicable.
- Abstract(参考訳): 幅広いアプリケーションでタスクを解くことを学ぶ一般的なアルゴリズムの開発は、人工知能の基本的な課題である。
現在の強化学習アルゴリズムは、彼らが開発したものと同様のタスクに容易に適用できるが、新しいアプリケーション領域のためにそれらを設定するには、かなりの専門知識と実験が必要である。
本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。
ドリーマーは環境のモデルを学び、将来のシナリオを想像することでその振る舞いを改善する。
正規化、バランス、変換に基づくロバストネス技術は、ドメイン間の安定した学習を可能にする。
Dreamerは、人間のデータやカリキュラムを使わずにMinecraftでダイヤモンドをスクラッチから収集する最初のアルゴリズムだ。
この成果は、オープンな世界でピクセルやスパース報酬から遠視的な戦略を探求する必要がある人工知能において重要な課題として挙げられている。
我々の研究は、広範囲な実験をすることなく、困難な制御問題の解決を可能にし、強化学習を広く適用できるようにする。
関連論文リスト
- Neural networks for abstraction and reasoning: Towards broad
generalization in machines [3.165509887826658]
我々は Abstraction & Reasoning Corpus (ARC) を解くための新しいアプローチについて検討する。
本研究では,DreamCoderのニューロシンボリック推論解法をARCに適用する。
我々は、DreamCoderがARCタスクを解くことを可能にするPeARL(Perceptual Abstraction and Reasoning Language)言語を提示する。
ARCに関する今後の研究を容易にするために、arckit Pythonライブラリを公開しています。
論文 参考訳(メタデータ) (2024-02-05T20:48:57Z) - General Intelligence Requires Rethinking Exploration [24.980249597326985]
我々は,教師付き学習を含むすべての学習システムにおいて,探索が不可欠であると主張している。
汎用的な探索は、オープンエンドの学習プロセスを維持するために必要な目的である。
論文 参考訳(メタデータ) (2022-11-15T00:46:15Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z) - Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents [1.0742675209112622]
我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
論文 参考訳(メタデータ) (2020-04-20T04:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。