論文の概要: Fast Peer Adaptation with Context-aware Exploration
- arxiv url: http://arxiv.org/abs/2402.02468v2
- Date: Fri, 9 Aug 2024 08:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:30:23.710068
- Title: Fast Peer Adaptation with Context-aware Exploration
- Title(参考訳): 文脈認識探索による高速ピア適応
- Authors: Long Ma, Yuanfei Wang, Fangwei Zhong, Song-Chun Zhu, Yizhou Wang,
- Abstract要約: マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
- 参考スコア(独自算出の注目度): 63.08444527039578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast adapting to unknown peers (partners or opponents) with different strategies is a key challenge in multi-agent games. To do so, it is crucial for the agent to probe and identify the peer's strategy efficiently, as this is the prerequisite for carrying out the best response in adaptation. However, exploring the strategies of unknown peers is difficult, especially when the games are partially observable and have a long horizon. In this paper, we propose a peer identification reward, which rewards the learning agent based on how well it can identify the behavior pattern of the peer over the historical context, such as the observation over multiple episodes. This reward motivates the agent to learn a context-aware policy for effective exploration and fast adaptation, i.e., to actively seek and collect informative feedback from peers when uncertain about their policies and to exploit the context to perform the best response when confident. We evaluate our method on diverse testbeds that involve competitive (Kuhn Poker), cooperative (PO-Overcooked), or mixed (Predator-Prey-W) games with peer agents. We demonstrate that our method induces more active exploration behavior, achieving faster adaptation and better outcomes than existing methods.
- Abstract(参考訳): 異なる戦略で未知の仲間(パートナーや相手)に迅速に適応することは、マルチエージェントゲームにおいて重要な課題である。
そのため、適応において最良の対応を行うための前提条件であるため、エージェントが効率よくピアの戦略を調査・特定することが不可欠である。
しかし、特にゲームが部分的に観察可能で、長い地平線を持つ場合、未知のピアの戦略を探索することは困難である。
本稿では,複数のエピソードにまたがる観察などの歴史的文脈において,ピアの行動パターンをいかに識別できるかに基づいて,学習エージェントに報奨を与えるピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈対応政策、すなわち、ポリシーについて不確実な時に仲間から情報的フィードバックを積極的に求め、収集し、自信のあるときに最高の応答を行うためのコンテキストを活用することを促す。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
我々は,本手法が既存手法よりも高速な適応とより良い結果をもたらすことを実証した。
関連論文リスト
- Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations [16.073203911932872]
ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
ピアラーニングは,OpenAI Gymドメインのいくつかの課題において,単一エージェント学習とベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:01:35Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Policy Search with Rare Significant Events: Choosing the Right Partner
to Cooperate with [0.0]
本稿では,重要な出来事が稀であり,エピソードごとの肯定的な報酬に制限される強化学習問題に焦点をあてる。
重要な事象がまれな場合には,勾配情報も不足しており,政策勾配探索法が最適方針を見出すのが困難である。
一方、直接ポリシー探索法は重要な事象の希少性に不変であることを示し、これは進化的アルゴリズムが強化学習法としての役割を担わなければならないという別の確証である。
論文 参考訳(メタデータ) (2021-03-11T18:14:41Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。