論文の概要: Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming
- arxiv url: http://arxiv.org/abs/2402.18866v1
- Date: Thu, 29 Feb 2024 05:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:04:11.049623
- Title: Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming
- Title(参考訳): Dr.戦略:ストラテジックドリームを持つモデルベースジェネリストエージェント
- Authors: Hany Hamed, Subin Kim, Dongyeong Kim, Jaesik Yoon, Sungjin Ahn
- Abstract要約: 本論文は,人間が空間分割戦略を計画に用いていることを示唆する認知科学の観察から着想を得たものである。
本稿では,新しいドリーム戦略を備えたモデルベース強化学習エージェントDr. Strategyを提案する。
提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。
- 参考スコア(独自算出の注目度): 19.508206147126383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) has been a primary approach to
ameliorating the sample efficiency issue as well as to make a generalist agent.
However, there has not been much effort toward enhancing the strategy of
dreaming itself. Therefore, it is a question whether and how an agent can
"dream better" in a more structured and strategic way. In this paper, inspired
by the observation from cognitive science suggesting that humans use a spatial
divide-and-conquer strategy in planning, we propose a new MBRL agent, called
Dr. Strategy, which is equipped with a novel Dreaming Strategy. The proposed
agent realizes a version of divide-and-conquer-like strategy in dreaming. This
is achieved by learning a set of latent landmarks and then utilizing these to
learn a landmark-conditioned highway policy. With the highway policy, the agent
can first learn in the dream to move to a landmark, and from there it tackles
the exploration and achievement task in a more focused way. In experiments, we
show that the proposed model outperforms prior pixel-based MBRL methods in
various visually complex and partially observable navigation tasks. The source
code will be available at https://github.com/ahn-ml/drstrategy
- Abstract(参考訳): モデルベース強化学習(MBRL)は、サンプル効率問題を改善し、ジェネラリストエージェントを作るための主要なアプローチである。
しかし、夢の戦略の強化にはあまり努力が払われていない。
したがって、エージェントがより構造化され戦略的な方法で「より良くする」ことができるかどうかという問題である。
本稿では,人間が空間分割・分割戦略を計画に用いていることを示唆する認知科学の観察から着想を得た,新しい夢の戦略を備えた新しいmbrlエージェントであるdr. strategyを提案する。
提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。
これは、潜在するランドマークの集合を学習し、それを利用してランドマーク条件のハイウェイポリシーを学ぶことで達成される。
ハイウェイポリシーでは、エージェントは夢の中でランドマークに移動することを学習し、そこからより焦点を絞った方法で探索と達成のタスクに取り組むことができる。
実験により,提案手法は様々な視覚的かつ部分的に観察可能なナビゲーションタスクにおいて,画素ベースのMBRL法よりも優れていた。
ソースコードはhttps://github.com/ahn-ml/drstrategyで入手できる。
関連論文リスト
- Paths to Equilibrium in Normal-Form Games [6.812247730094933]
マルチエージェント強化学習(MARL)では、エージェントは時間をかけて繰り返し対話し、新たなデータが到着するにつれて戦略を再検討する。
本稿では,強化学習における政策更新に触発された一対の制約を満たす戦略の列について検討する。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Hierarchical Strategies for Cooperative Multi-Agent Reinforcement
Learning [0.0]
本稿では,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層アーキテクチャを提案する。
提案手法は,超硬度SCIIシナリオを解く最初のMARLアルゴリズムとして,我々の知る限り,この技術の新たな状態を確立するものであることを示す。
メソッドのビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
論文 参考訳(メタデータ) (2022-12-14T18:27:58Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Solving Sokoban with backward reinforcement learning [3.314901648855819]
いくつかのパズルでは、目標の近くで使用する戦略は、初期の効果的な戦略とはかなり異なる場合があります。
一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。
我々は、強化学習フレームワークの中で、このアイデアを一歩前進させるアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-05T07:37:57Z) - Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文 参考訳(メタデータ) (2021-02-28T10:25:46Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。