論文の概要: IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with
Ambiguous Identities
- arxiv url: http://arxiv.org/abs/2210.12896v1
- Date: Mon, 24 Oct 2022 00:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:12:58.752818
- Title: IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with
Ambiguous Identities
- Title(参考訳): IDRL:曖昧なアイデンティティを持つ多エージェント強化学習におけるアイデンティティの同定
- Authors: Shijie Han, Peng liu, Siyuan Li
- Abstract要約: 我々は,エージェントのアイデンティティを動的に識別する新しいMARLフレームワーク IDRL を開発し,タスクを実行するための対応するポリシーを選択する。
ポーカーゲームtextitred-10を実験環境とし、IDRLは他のMARL法と比較して優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 14.440273322731446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning(MARL) is a prevalent learning paradigm for
solving stochastic games. In previous studies, agents in a game are defined to
be teammates or enemies beforehand, and the relation of the agents is fixed
throughout the game. Those works can hardly work in the games where the
competitive and collaborative relationships are not public and dynamically
changing, which is decided by the \textit{identities} of the agents. How to
learn a successful policy in such a situation where the identities of agents
are ambiguous is still a problem. Focusing on this problem, in this work, we
develop a novel MARL framework: IDRL, which identifies the identities of the
agents dynamically and then chooses the corresponding policy to perform in the
task. In the IDRL framework, a relation network is constructed to deduce the
identities of the multi-agents through feeling the kindness and hostility
unleashed by other agents; a dangerous network is built to estimate the risk of
the identification. We also propose an intrinsic reward to help train the
relation network and the dangerous network to get a trade-off between the need
to maximize external reward and the accuracy of identification. After
identifying the cooperation-competition pattern among the agents, the proposed
method IDRL applies one of the off-the-shelf MARL methods to learn the policy.
Taking the poker game \textit{red-10} as the experiment environment,
experiments show that the IDRL can achieve superior performance compared to the
other MARL methods. Significantly, the relation network has the par performance
to identify the identities of agents with top human players; the dangerous
network reasonably avoids the risk of imperfect identification.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は確率ゲームを解くための一般的な学習パラダイムである。
これまでの研究では、ゲーム内のエージェントは前もってチームメイトまたは敵であると定義され、エージェントの関係はゲーム全体で固定されている。
これらの作品は、競合的かつ協調的な関係が公開されず、動的に変化するゲームではほとんど機能しないが、エージェントの \textit{identities} によって決定される。
エージェントのアイデンティティがあいまいな状況において、成功するポリシーをどのように学ぶかはまだ問題である。
そこで本研究では,エージェントの身元を動的に識別する新しいMARLフレームワークであるIDRLを開発し,そのタスクを実行するための対応するポリシーを選択する。
idrlフレームワークでは、他のエージェントが解き放たれた親切さや敵意を感じて、複数のエージェントのアイデンティティを推測する関連ネットワークを構築し、その識別のリスクを推定する危険なネットワークを構築する。
また,外部報酬の最大化の必要性と識別精度とのトレードオフを得るために,関係ネットワークと危険なネットワークを訓練するための内在的な報酬を提案する。
提案手法は, エージェント間の協調競争パターンを同定した後, 既成のmarl法を適用してその方針を学習する。
ポーカーゲーム \textit{red-10} を実験環境とし、実験により、IDRLは他のMARL法と比較して優れた性能が得られることを示した。
重要なことは、関係ネットワークは、トップヒューマンプレイヤーとのエージェントの同一性を識別するパーパフォーマンスを持ち、危険なネットワークは、不完全な識別のリスクを合理的に回避する。
関連論文リスト
- Collaborative AI Teaming in Unknown Environments via Active Goal Deduction [22.842601384114058]
協調エージェントを訓練するための既存のアプローチは、しばしば定義され既知の報酬信号を必要とする。
本稿では,カーネル密度ベイズ逆学習法をアクティブなゴール推論に活用する未知のエージェントフレームワークと組むことを提案する。
我々のフレームワークにおける不偏報酬推定は、未知のエージェントと最適なチームを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2024-03-22T16:50:56Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Unsupervised Domain Adaptation on Person Re-Identification via
Dual-level Asymmetric Mutual Learning [108.86940401125649]
本稿では,多種多様な埋め込み空間を持つより広い知識領域から識別的表現を学習するための,DAML(Dual-level Asymmetric Mutual Learning)を提案する。
2つのネットワーク間の知識伝達は、非対称な相互学習方式に基づいている。
Market-1501、CUHK-SYSU、MSMT17の公開データセットにおける実験は、最先端技術よりもDAMLの方が優れていることを証明した。
論文 参考訳(メタデータ) (2023-01-29T12:36:17Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition [31.877237996738252]
価値分解(VD)は、グローバルな報酬のみの存在下で、分散政策へのエージェントの貢献を推論することを目的としている。
VDの主な課題の1つは、エージェント間の多様な振る舞いを促進することであり、既存の手法は学習エージェントネットワークの多様性を直接的に促進する。
本稿では、VDネットワークの信用レベルの識別性を明示的に向上する、新しいContrastive Identity-Aware Learning(CIA)手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T05:18:42Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Networked Multi-Agent Reinforcement Learning with Emergent Communication [18.47483427884452]
MARL(Multi-Agent Reinforcement Learning)法は,他の学習エージェントの存在下で活動するエージェントに対して最適なポリシーを求める。
コーディネートするひとつの方法は、相互通信を学ぶことです。
エージェントは共通のタスクを実行するために学習しながら言語を開発することができるか?
論文 参考訳(メタデータ) (2020-04-06T16:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。