論文の概要: ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward
- arxiv url: http://arxiv.org/abs/2210.04365v1
- Date: Sun, 9 Oct 2022 22:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:01:43.706528
- Title: ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward
- Title(参考訳): ELIGN:マルチエージェント固有のリワードとしての期待アライメント
- Authors: Zixian Ma, Rose Wang, Li Fei-Fei, Michael Bernstein, Ranjay Krishna
- Abstract要約: 本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
- 参考スコア(独自算出の注目度): 29.737986509769808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern multi-agent reinforcement learning frameworks rely on centralized
training and reward shaping to perform well. However, centralized training and
dense rewards are not readily available in the real world. Current multi-agent
algorithms struggle to learn in the alternative setup of decentralized training
or sparse rewards. To address these issues, we propose a self-supervised
intrinsic reward ELIGN - expectation alignment - inspired by the
self-organization principle in Zoology. Similar to how animals collaborate in a
decentralized manner with those in their vicinity, agents trained with
expectation alignment learn behaviors that match their neighbors' expectations.
This allows the agents to learn collaborative behaviors without any external
reward or centralized training. We demonstrate the efficacy of our approach
across 6 tasks in the multi-agent particle and the complex Google Research
football environments, comparing ELIGN to sparse and curiosity-based intrinsic
rewards. When the number of agents increases, ELIGN scales well in all
multi-agent tasks except for one where agents have different capabilities. We
show that agent coordination improves through expectation alignment because
agents learn to divide tasks amongst themselves, break coordination symmetries,
and confuse adversaries. These results identify tasks where expectation
alignment is a more useful strategy than curiosity-driven exploration for
multi-agent coordination, enabling agents to do zero-shot coordination.
- Abstract(参考訳): 現代のマルチエージェント強化学習フレームワークは、集中的なトレーニングと報酬形成に頼っている。
しかし、集中トレーニングや密集した報酬は現実世界では簡単には利用できない。
現在のマルチエージェントアルゴリズムは、分散トレーニングやスパース報酬の代替設定で学ぶのに苦労している。
これらの課題に対処するため,動物学における自己組織原理に着想を得た自己管理型固有報酬ELIGN(期待アライメントアライメント)を提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
これにより、エージェントは外部の報酬や集中的なトレーニングなしに協調行動を学ぶことができる。
我々は,多エージェント粒子と複雑なGoogle Researchフットボール環境における6つのタスクにまたがるアプローチの有効性を実証し,ELIGNをスパースと好奇心に基づく固有報酬と比較した。
エージェント数が増加すると、エージェントが異なる機能を持つものを除いて、複数のエージェントタスクでelignがうまくスケールする。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
これらの結果は、多エージェント協調のための好奇心駆動探索よりも期待整合が有用な戦略であるタスクを特定し、エージェントはゼロショット整合を行うことができる。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Consensus Learning for Cooperative Multi-Agent Reinforcement Learning [12.74348597962689]
協調型マルチエージェント強化学習のためのコンセンサス学習を提案する。
我々は、エージェントのネットワークへの明示的な入力として、推論されたコンセンサスをフィードする。
提案手法は,様々なマルチエージェント強化学習アルゴリズムに拡張することができる。
論文 参考訳(メタデータ) (2022-06-06T12:43:07Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Two-stage training algorithm for AI robot soccer [2.0757564643017092]
異種エージェントの学習性能を向上させるために,二段階多種集中訓練を提案する。
提案手法は,5対5のAIロボットサッカーを用いて検証を行う。
論文 参考訳(メタデータ) (2021-04-13T04:24:13Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。