Fugu-MT 論文翻訳(概要): Mastering Diverse Domains through World Models

論文の概要: Mastering Diverse Domains through World Models

arxiv url: http://arxiv.org/abs/2301.04104v1
Date: Tue, 10 Jan 2023 18:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 16:19:27.192322
Title: Mastering Diverse Domains through World Models
Title（参考訳）: 世界モデルによる海外ドメインのマスタリング
Authors: Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap
Abstract要約: 汎用インテリジェンスには、多くのドメインにわたるタスクの解決が必要である。本研究では,世界モデルに基づく拡張強化学習アルゴリズムDreamerV3を提案する。 DreamerV3は、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
参考スコア（独自算出の注目度）: 34.87345839233085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General intelligence requires solving tasks across many domains. Current reinforcement learning algorithms carry this potential but are held back by the resources and knowledge required to tune them for new tasks. We present DreamerV3, a general and scalable algorithm based on world models that outperforms previous approaches across a wide range of domains with fixed hyperparameters. These domains include continuous and discrete actions, visual and low-dimensional inputs, 2D and 3D worlds, different data budgets, reward frequencies, and reward scales. We observe favorable scaling properties of DreamerV3, with larger models directly translating to higher data-efficiency and final performance. Applied out of the box, DreamerV3 is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula, a long-standing challenge in artificial intelligence. Our general algorithm makes reinforcement learning broadly applicable and allows scaling to hard decision making problems.
Abstract（参考訳）: 汎用インテリジェンスには、多くのドメインにわたるタスクの解決が必要である。現在の強化学習アルゴリズムはこの可能性を秘めているが、新しいタスクに調整するために必要なリソースと知識に支えられている。本稿では,世界モデルに基づく汎用かつスケーラブルなアルゴリズムであるDreamerV3について述べる。これらのドメインには、連続的かつ離散的なアクション、視覚的および低次元の入力、2Dおよび3Dの世界、異なるデータ予算、報酬頻度、報酬スケールが含まれる。我々はDreamerV3の優れたスケーリング特性を観察し、より大きなモデルでデータ効率と最終的な性能を直接変換する。 DreamerV3は、人間のデータやカリキュラムを使わずにMinecraftのダイヤモンドをゼロから収集する最初のアルゴリズムだ。我々の一般的なアルゴリズムは、強化学習を広く適用し、難しい意思決定問題へのスケーリングを可能にします。

関連論文リスト

SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending [79.83865372778273]
SkillBlenderは、多目的なヒューマノイドロコ操作のための新しい階層的強化学習フレームワークである。 SkillBlenderは、まずゴール条件付きタスク非依存のプリミティブスキルを事前訓練し、その後、これらのスキルを動的にブレンドして複雑なロコ操作タスクを達成する。また,3つのエボディメント,4つのプリミティブスキル,8つの難解なロコ操作タスクを含む並列的,クロスエボディメント,多種多様なシミュレーションベンチマークであるSkillBenchを紹介した。
論文参考訳（メタデータ） (2025-06-11T03:24:26Z)
AI for the Open-World: the Learning Principles [4.357691364971652]
この論文は、オープンワールドのためのAIを構築するために必要な学習原則を探求する。学習原則を使用するためのテクニックを提案し、学習原則を検証するために大規模な実験を行う。
論文参考訳（メタデータ） (2025-04-20T22:22:00Z)
Neural networks for abstraction and reasoning: Towards broad generalization in machines [3.165509887826658]
我々は Abstraction & Reasoning Corpus (ARC) を解くための新しいアプローチについて検討する。本研究では,DreamCoderのニューロシンボリック推論解法をARCに適用する。我々は、DreamCoderがARCタスクを解くことを可能にするPeARL(Perceptual Abstraction and Reasoning Language)言語を提示する。 ARCに関する今後の研究を容易にするために、arckit Pythonライブラリを公開しています。
論文参考訳（メタデータ） (2024-02-05T20:48:57Z)
General Intelligence Requires Rethinking Exploration [24.980249597326985]
我々は,教師付き学習を含むすべての学習システムにおいて,探索が不可欠であると主張している。汎用的な探索は、オープンエンドの学習プロセスを維持するために必要な目的である。
論文参考訳（メタデータ） (2022-11-15T00:46:15Z)
Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。 Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文参考訳（メタデータ） (2022-06-08T18:20:15Z)
Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文参考訳（メタデータ） (2022-04-15T09:56:50Z)
Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2021-12-02T13:07:29Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Continual Learning of Control Primitives: Skill Discovery via Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文参考訳（メタデータ） (2020-11-10T18:07:44Z)
The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文参考訳（メタデータ） (2020-04-27T03:36:10Z)
Learning as Reinforcement: Applying Principles of Neuroscience for More General Reinforcement Learning Agents [1.0742675209112622]
我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。 Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
論文参考訳（メタデータ） (2020-04-20T04:06:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。