論文の概要: Policy Search with Rare Significant Events: Choosing the Right Partner
to Cooperate with
- arxiv url: http://arxiv.org/abs/2103.06846v1
- Date: Thu, 11 Mar 2021 18:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 09:36:25.703478
- Title: Policy Search with Rare Significant Events: Choosing the Right Partner
to Cooperate with
- Title(参考訳): 稀有な出来事を伴う政策検索: 協力する適切なパートナーを選ぶ
- Authors: Paul Ecoffet, Nicolas Fontbonne, Jean-Baptiste Andr\'e, Nicolas
Bredeche
- Abstract要約: 本稿では,重要な出来事が稀であり,エピソードごとの肯定的な報酬に制限される強化学習問題に焦点をあてる。
重要な事象がまれな場合には,勾配情報も不足しており,政策勾配探索法が最適方針を見出すのが困難である。
一方、直接ポリシー探索法は重要な事象の希少性に不変であることを示し、これは進化的アルゴリズムが強化学習法としての役割を担わなければならないという別の確証である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on a class of reinforcement learning problems where
significant events are rare and limited to a single positive reward per
episode. A typical example is that of an agent who has to choose a partner to
cooperate with, while a large number of partners are simply not interested in
cooperating, regardless of what the agent has to offer. We address this problem
in a continuous state and action space with two different kinds of search
methods: a gradient policy search method and a direct policy search method
using an evolution strategy. We show that when significant events are rare,
gradient information is also scarce, making it difficult for policy gradient
search methods to find an optimal policy, with or without a deep neural
architecture. On the other hand, we show that direct policy search methods are
invariant to the rarity of significant events, which is yet another
confirmation of the unique role evolutionary algorithms has to play as a
reinforcement learning method.
- Abstract(参考訳): 本稿では,重要な出来事が稀であり,エピソードごとの肯定的な報酬に制限される強化学習問題に焦点をあてる。
典型的な例として、協力するパートナーを選ばなければならないエージェントがあるが、多くのパートナーは、エージェントが何を提供するかに関わらず、単に協力に興味がない。
グラデーションポリシ検索法と、進化戦略を用いたダイレクトポリシ検索法という2つの異なる検索方法を用いて、継続的な状態と行動空間でこの問題に対処します。
重要な事象が稀な場合、勾配情報も乏しく、より深いニューラルアーキテクチャを持つか否かに関わらず、ポリシー勾配探索法が最適なポリシーを見つけるのが困難であることを示す。
一方、直接ポリシー探索法は重要な事象の希少性に不変であることを示し、これは進化的アルゴリズムが強化学習法としての役割を担わなければならないという別の確証である。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Curriculum-Driven Multi-Agent Learning and the Role of Implicit
Communication in Teamwork [24.92668968807012]
難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。
我々は、創発的な暗黙のコミュニケーションが、優れた調整レベルを実現する上で大きな役割を果たすと主張している。
論文 参考訳(メタデータ) (2021-06-21T14:54:07Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。