Fugu-MT 論文翻訳(概要): Learning cooperative behaviours in adversarial multi-agent systems

論文の概要: Learning cooperative behaviours in adversarial multi-agent systems

arxiv url: http://arxiv.org/abs/2302.05528v1
Date: Fri, 10 Feb 2023 22:12:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 19:55:05.368180
Title: Learning cooperative behaviours in adversarial multi-agent systems
Title（参考訳）: 多エージェントシステムにおける協調行動の学習
Authors: Ni Wang, Gautham P. Das, Alan G. Millard
Abstract要約: この作業は、RoboSumoと呼ばれる既存の仮想マルチエージェントプラットフォームを拡張して、TripleSumoを作成する。我々は、2人のエージェント、すなわち「バグ」と「アント」が組んで別のエージェント「スパイダー」をアリーナから追い出さなければならないシナリオを調査する。この目標を達成するため、新たに加わったエージェント「バグ」は「アント」とスパイダー」の対戦中に訓練される。
参考スコア（独自算出の注目度）: 2.355408272992293
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work extends an existing virtual multi-agent platform called RoboSumo to create TripleSumo -- a platform for investigating multi-agent cooperative behaviors in continuous action spaces, with physical contact in an adversarial environment. In this paper we investigate a scenario in which two agents, namely `Bug' and `Ant', must team up and push another agent `Spider' out of the arena. To tackle this goal, the newly added agent `Bug' is trained during an ongoing match between `Ant' and `Spider'. `Bug' must develop awareness of the other agents' actions, infer the strategy of both sides, and eventually learn an action policy to cooperate. The reinforcement learning algorithm Deep Deterministic Policy Gradient (DDPG) is implemented with a hybrid reward structure combining dense and sparse rewards. The cooperative behavior is quantitatively evaluated by the mean probability of winning the match and mean number of steps needed to win.
Abstract（参考訳）: この作業は、RoboSumoと呼ばれる既存の仮想マルチエージェントプラットフォームを拡張して、TripleSumoを作成する。本稿では,'bug' と 'ant' という2つのエージェントがチームを組んで,他のエージェント 'spider' をアリーナから押し出さなければならないシナリオについて検討する。この目標を達成するため、新たに追加されたエージェント‘Bug’は、‘Ant’と‘Spider’の対戦中にトレーニングされる。バグは、他のエージェントのアクションに対する認識を深め、双方の戦略を推論し、最終的には協力するためのアクションポリシーを学ぶ必要がある。強化学習アルゴリズムであるDeep Deterministic Policy Gradient (DDPG) は、密度とスパース報酬を組み合わせたハイブリッド報酬構造を用いて実装されている。協調行動は、試合に勝つ平均確率と、勝つために必要なステップ数によって定量的に評価される。

関連論文リスト

Generalizable Agent Modeling for Agent Collaboration-Competition Adaptation with Multi-Retrieval and Dynamic Generation [19.74776726500979]
ひとつのエージェントを新しいマルチエージェントシステムに適用することは、課題をもたらし、さまざまなタスク、環境、未知のチームメイトや相手とのインタラクションを調整する必要がある。本稿では,多種多様なシナリオにまたがってエージェントを一般化するためのエージェント評価を行う,より包括的なエージェント協調適応手法を提案する。 ACCAでは、エージェントはタスクや環境の変化を調整し、目に見えないチームメイトと協力し、未知の相手と競う。
論文参考訳（メタデータ） (2025-06-20T03:28:18Z)
Human-Agent Coordination in Games under Incomplete Information via Multi-Step Intent [21.170542003568674]
自律エージェントと人間のパートナー間の戦略的調整はターンベースの協調ゲームとしてモデル化できる。不完全な情報の下でターンベースのゲームを拡張し、プレイヤーが単一のアクションではなく、ターンごとに複数のアクションを実行できるようにする。
論文参考訳（メタデータ） (2024-10-23T19:37:19Z)
N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。 POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文参考訳（メタデータ） (2024-04-16T17:13:08Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2023-08-21T16:47:11Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文参考訳（メタデータ） (2021-01-18T05:52:22Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。 SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文参考訳（メタデータ） (2020-07-09T17:59:57Z)
Natural Emergence of Heterogeneous Strategies in Artificially Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文参考訳（メタデータ） (2020-07-06T22:35:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。