論文の概要: Collaborative AI Teaming in Unknown Environments via Active Goal Deduction
- arxiv url: http://arxiv.org/abs/2403.15341v1
- Date: Fri, 22 Mar 2024 16:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:40:19.787406
- Title: Collaborative AI Teaming in Unknown Environments via Active Goal Deduction
- Title(参考訳): 能動ゴール推論による未知環境における協調型AIチームの構築
- Authors: Zuyuan Zhang, Hanhan Zhou, Mahdi Imani, Taeyoung Lee, Tian Lan,
- Abstract要約: 協調エージェントを訓練するための既存のアプローチは、しばしば定義され既知の報酬信号を必要とする。
本稿では,カーネル密度ベイズ逆学習法をアクティブなゴール推論に活用する未知のエージェントフレームワークと組むことを提案する。
我々のフレームワークにおける不偏報酬推定は、未知のエージェントと最適なチームを作るのに十分であることを示す。
- 参考スコア(独自算出の注目度): 22.842601384114058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancements of artificial intelligence (AI), we're seeing more scenarios that require AI to work closely with other agents, whose goals and strategies might not be known beforehand. However, existing approaches for training collaborative agents often require defined and known reward signals and cannot address the problem of teaming with unknown agents that often have latent objectives/rewards. In response to this challenge, we propose teaming with unknown agents framework, which leverages kernel density Bayesian inverse learning method for active goal deduction and utilizes pre-trained, goal-conditioned policies to enable zero-shot policy adaptation. We prove that unbiased reward estimates in our framework are sufficient for optimal teaming with unknown agents. We further evaluate the framework of redesigned multi-agent particle and StarCraft II micromanagement environments with diverse unknown agents of different behaviors/rewards. Empirical results demonstrate that our framework significantly advances the teaming performance of AI and unknown agents in a wide range of collaborative scenarios.
- Abstract(参考訳): 人工知能(AI)の進歩により、AIが他のエージェントと密接に連携する必要のあるシナリオが増えています。
しかし、協調エージェントを訓練するための既存のアプローチは、しばしば定義され既知の報酬信号を必要とし、しばしば潜在目標/回帰を持つ未知のエージェントとのコラボレーションの問題に対処することができない。
この課題に対応するために、カーネル密度ベイズ逆学習法をアクティブゴール推論に活用し、事前訓練された目標条件付きポリシーを用いてゼロショットポリシー適応を可能にする未知エージェントフレームワークとの連携を提案する。
我々のフレームワークにおける不偏報酬推定は、未知のエージェントと最適なチームを作るのに十分であることを示す。
さらに,異なる振る舞い/逆の多様な未知のエージェントを用いて,再設計されたマルチエージェント粒子とStarCraft IIマイクロマネジメント環境の枠組みを評価する。
実験の結果、我々のフレームワークは、広範囲の協調シナリオにおいて、AIと未知エージェントのチーム化性能を大幅に向上することが示された。
関連論文リスト
- Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Emergent collective intelligence from massive-agent cooperation and
competition [19.75488604218965]
大規模強化学習による人工知能の出現について検討する。
我々はLuxという大規模強化学習環境を提案する。この環境では、2つのチームの動的エージェントと大規模エージェントが限られたリソースを求めてスクランブルし、暗闇から戦う。
論文 参考訳(メタデータ) (2023-01-04T13:23:12Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。