Fugu-MT 論文翻訳(概要): Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming

論文の概要: Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming

arxiv url: http://arxiv.org/abs/2402.18866v1
Date: Thu, 29 Feb 2024 05:34:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:04:11.049623
Title: Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming
Title（参考訳）: Dr.戦略:ストラテジックドリームを持つモデルベースジェネリストエージェント
Authors: Hany Hamed, Subin Kim, Dongyeong Kim, Jaesik Yoon, Sungjin Ahn
Abstract要約: 本論文は,人間が空間分割戦略を計画に用いていることを示唆する認知科学の観察から着想を得たものである。本稿では,新しいドリーム戦略を備えたモデルベース強化学習エージェントDr. Strategyを提案する。提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。
参考スコア（独自算出の注目度）: 19.508206147126383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model-based reinforcement learning (MBRL) has been a primary approach to ameliorating the sample efficiency issue as well as to make a generalist agent. However, there has not been much effort toward enhancing the strategy of dreaming itself. Therefore, it is a question whether and how an agent can "dream better" in a more structured and strategic way. In this paper, inspired by the observation from cognitive science suggesting that humans use a spatial divide-and-conquer strategy in planning, we propose a new MBRL agent, called Dr. Strategy, which is equipped with a novel Dreaming Strategy. The proposed agent realizes a version of divide-and-conquer-like strategy in dreaming. This is achieved by learning a set of latent landmarks and then utilizing these to learn a landmark-conditioned highway policy. With the highway policy, the agent can first learn in the dream to move to a landmark, and from there it tackles the exploration and achievement task in a more focused way. In experiments, we show that the proposed model outperforms prior pixel-based MBRL methods in various visually complex and partially observable navigation tasks. The source code will be available at https://github.com/ahn-ml/drstrategy
Abstract（参考訳）: モデルベース強化学習(MBRL)は、サンプル効率問題を改善し、ジェネラリストエージェントを作るための主要なアプローチである。しかし、夢の戦略の強化にはあまり努力が払われていない。したがって、エージェントがより構造化され戦略的な方法で「より良くする」ことができるかどうかという問題である。本稿では,人間が空間分割・分割戦略を計画に用いていることを示唆する認知科学の観察から着想を得た,新しい夢の戦略を備えた新しいmbrlエージェントであるdr. strategyを提案する。提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。これは、潜在するランドマークの集合を学習し、それを利用してランドマーク条件のハイウェイポリシーを学ぶことで達成される。ハイウェイポリシーでは、エージェントは夢の中でランドマークに移動することを学習し、そこからより焦点を絞った方法で探索と達成のタスクに取り組むことができる。実験により,提案手法は様々な視覚的かつ部分的に観察可能なナビゲーションタスクにおいて,画素ベースのMBRL法よりも優れていた。ソースコードはhttps://github.com/ahn-ml/drstrategyで入手できる。

関連論文リスト

SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文参考訳（メタデータ） (2025-07-31T17:57:20Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)
Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文参考訳（メタデータ） (2024-01-31T15:24:13Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
Hierarchical Strategies for Cooperative Multi-Agent Reinforcement Learning [0.0]
本稿では,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層アーキテクチャを提案する。提案手法は,超硬度SCIIシナリオを解く最初のMARLアルゴリズムとして,我々の知る限り,この技術の新たな状態を確立するものであることを示す。メソッドのビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
論文参考訳（メタデータ） (2022-12-14T18:27:58Z)
A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文参考訳（メタデータ） (2022-08-07T06:17:15Z)
Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文参考訳（メタデータ） (2021-08-30T04:30:53Z)
Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。 ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。 ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文参考訳（メタデータ） (2021-02-28T10:25:46Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)
Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文参考訳（メタデータ） (2020-09-29T20:40:00Z)
Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文参考訳（メタデータ） (2020-01-08T04:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。