論文の概要: Never Explore Repeatedly in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.09909v1
- Date: Sat, 19 Aug 2023 05:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:09:32.142195
- Title: Never Explore Repeatedly in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における繰り返し探索
- Authors: Chenghao Li, Tonghan Wang, Chongjie Zhang, Qianchuan Zhao
- Abstract要約: 我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
- 参考スコア(独自算出の注目度): 40.35950679063337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of multi-agent reinforcement learning, intrinsic motivations
have emerged as a pivotal tool for exploration. While the computation of many
intrinsic rewards relies on estimating variational posteriors using neural
network approximators, a notable challenge has surfaced due to the limited
expressive capability of these neural statistics approximators. We pinpoint
this challenge as the "revisitation" issue, where agents recurrently explore
confined areas of the task space. To combat this, we propose a dynamic reward
scaling approach. This method is crafted to stabilize the significant
fluctuations in intrinsic rewards in previously explored areas and promote
broader exploration, effectively curbing the revisitation phenomenon. Our
experimental findings underscore the efficacy of our approach, showcasing
enhanced performance in demanding environments like Google Research Football
and StarCraft II micromanagement tasks, especially in sparse reward settings.
- Abstract(参考訳): 多エージェント強化学習の領域では、本質的なモチベーションが探索の重要ツールとして現れている。
多くの本質的な報酬の計算は、ニューラルネットワーク近似器を用いた変分後部の推定に依存しているが、これらのニューラルネットワーク統計近似器の限られた表現能力のために顕著な課題が表面化している。
我々は、この課題を、エージェントが繰り返しタスク空間の制限された領域を探索する「再考」問題として挙げる。
これに対処するため,我々は動的報酬スケーリング手法を提案する。
本手法は, 従来調査された地域において, 内因性報酬の有意な変動を安定化させ, より広範な探査を促進することを目的としている。
実験結果から,Google Research FootballやStarCraft IIのマイクロマネジメントタスク,特にスパース報酬設定など,要求される環境におけるパフォーマンスの向上が示唆された。
関連論文リスト
- Self-supervised network distillation: an effective approach to
exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Perturbation-based exploration methods in deep reinforcement learning [0.0]
政策・報酬空間における摂動がエージェントの探索行動に及ぼす影響について検討する。
ソフトマックス層の直前にポリシーを摂動させ,ドメインに散発的な報酬ボーナスを導入することで,探索を大幅に促進できることを示す。
論文 参考訳(メタデータ) (2020-11-10T22:57:51Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。