論文の概要: Multi-agent Cooperative Games Using Belief Map Assisted Training
- arxiv url: http://arxiv.org/abs/2406.19477v1
- Date: Thu, 27 Jun 2024 18:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:41:35.470635
- Title: Multi-agent Cooperative Games Using Belief Map Assisted Training
- Title(参考訳): 信念マップを用いた多エージェント協調ゲーム
- Authors: Qinwei Huang, Chen Luo, Alex B. Wu, Simon Khan, Hai Li, Qinru Qiu,
- Abstract要約: 多エージェントシステムでは、エージェントがローカルな観察結果を共有して、意思決定とコラボレーションのグローバルな状況認識を得る。
メッセージの送信方法、メッセージのエンコード方法、受信したメッセージの活用方法は、エージェント間のコラボレーションの有効性に直接的な影響を与える。
本稿では,神経シンボリックな信念マップを利用してトレーニングを強化するBelief-map Assisted Multi-Adnt System (BAMS)を提案する。
- 参考スコア(独自算出の注目度): 8.161055841062298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a multi-agent system, agents share their local observations to gain global situational awareness for decision making and collaboration using a message passing system. When to send a message, how to encode a message, and how to leverage the received messages directly affect the effectiveness of the collaboration among agents. When training a multi-agent cooperative game using reinforcement learning (RL), the message passing system needs to be optimized together with the agent policies. This consequently increases the model's complexity and poses significant challenges to the convergence and performance of learning. To address this issue, we propose the Belief-map Assisted Multi-agent System (BAMS), which leverages a neuro-symbolic belief map to enhance training. The belief map decodes the agent's hidden state to provide a symbolic representation of the agent's understanding of the environment and other agent's status. The simplicity of symbolic representation allows the gathering and comparison of the ground truth information with the belief, which provides an additional channel of feedback for the learning. Compared to the sporadic and delayed feedback coming from the reward in RL, the feedback from the belief map is more consistent and reliable. Agents using BAMS can learn a more effective message passing network to better understand each other, resulting in better performance in a cooperative predator and prey game with varying levels of map complexity and compare it to previous multi-agent message passing models. The simulation results showed that BAMS reduced training epochs by 66\%, and agents who apply the BAMS model completed the game with 34.62\% fewer steps on average.
- Abstract(参考訳): マルチエージェントシステムでは、エージェントがメッセージパッシングシステムを使用して意思決定やコラボレーションのグローバルな状況認識を得るために、ローカルな観察を共有できる。
メッセージの送信方法、メッセージのエンコード方法、受信したメッセージの活用方法は、エージェント間のコラボレーションの有効性に直接的な影響を与える。
強化学習(RL)を用いたマルチエージェント協調ゲームのトレーニングでは,エージェントポリシとともにメッセージパッシングシステムを最適化する必要がある。
これにより、モデルの複雑さが増大し、学習の収束とパフォーマンスに大きな課題が生じる。
この問題に対処するために,神経象徴的信念マップを利用してトレーニングを強化するBelief-map Assisted Multi-Adnt System (BAMS)を提案する。
信念マップは、エージェントの隠れた状態をデコードし、エージェントの環境と他のエージェントの状態に対する理解の象徴的な表現を提供する。
シンボリック表現の単純さは、基礎となる真理情報と信念の収集と比較を可能にし、学習のためのさらなるフィードバックのチャンネルを提供する。
RLの報酬から得られる散発的フィードバックや遅延フィードバックと比較して、信念マップからのフィードバックはより一貫性があり信頼性が高い。
BAMSを使用するエージェントは、より効果的なメッセージパッシングネットワークを学習し、お互いをよりよく理解し、結果として、マップの複雑さの異なる協調捕食者や獲物ゲームにおいて、より優れたパフォーマンスを実現し、以前のマルチエージェントメッセージパッシングモデルと比較することができる。
シミュレーションの結果、BAMSはトレーニングのエポックを66倍に減らし、BAMSモデルを適用するエージェントは平均34.62倍のステップでゲームを完成させた。
関連論文リスト
- Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning [42.27106057372819]
本稿では,大規模言語モデルをエージェントに組み込むマルチエージェント強化学習アルゴリズムを提案する。
フレームワークにはメッセージモジュールとアクションモジュールがある。
オーバークッキングゲームで行った実験は,既存の手法の学習効率と性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-27T05:10:33Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - HAMMER: Multi-Level Coordination of Reinforcement Learning Agents via
Learned Messaging [14.960795846548029]
協調型マルチエージェント強化学習(marl)は,ディープニューラルネットワークの表現学習能力を活用することで,大きな成果を上げている。
本稿では、観測空間全体を観測できる単一の、強力な、中央のエージェントが存在する場合と、局所的な観測のみを受信できる複数の、低パワーのローカルエージェントが相互に通信できない場合について考察する。
中央エージェントの役割は、グローバル観察に基づいて、異なるローカルエージェントに送信すべきメッセージを学ぶことであるが、個々のエージェントがよりよい決定を下せるように、どのような追加情報を受け取るべきかを決定することである。
論文 参考訳(メタデータ) (2021-01-18T19:00:12Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Correcting Experience Replay for Multi-Agent Communication [18.12281605882891]
マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の課題について考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使って、政治外を学ぶことである。
MARLにより誘導される観測通信の非定常性を考慮した「通信補正」を導入する。
論文 参考訳(メタデータ) (2020-10-02T20:49:24Z) - BGC: Multi-Agent Group Belief with Graph Clustering [1.9949730506194252]
エージェントがコミュニケーションなしで情報を交換できる半通信方式を提案する。
近接するエージェントを小さなグループに分割し,グループ内のエージェントの信念を最小化するグループベースのモジュールを提案する。
その結果,提案手法はSMACベンチマークの大幅な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T07:07:20Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。