論文の概要: DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2312.05783v1
- Date: Sun, 10 Dec 2023 06:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:36:38.374209
- Title: DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning
- Title(参考訳): DCIR:マルチエージェント強化学習のための動的一貫性固有のリワード
- Authors: Kunyang Lin, Yufeng Wang, Peihao Chen, Runhao Zeng, Siyuan Zhou,
Mingkui Tan, Chuang Gan
- Abstract要約: 本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
- 参考スコア(独自算出の注目度): 84.22561239481901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal behavior policy for each agent in multi-agent systems is an
essential yet difficult problem. Despite fruitful progress in multi-agent
reinforcement learning, the challenge of addressing the dynamics of whether two
agents should exhibit consistent behaviors is still under-explored. In this
paper, we propose a new approach that enables agents to learn whether their
behaviors should be consistent with that of other agents by utilizing intrinsic
rewards to learn the optimal policy for each agent. We begin by defining
behavior consistency as the divergence in output actions between two agents
when provided with the same observation. Subsequently, we introduce dynamic
consistency intrinsic reward (DCIR) to stimulate agents to be aware of others'
behaviors and determine whether to be consistent with them. Lastly, we devise a
dynamic scale network (DSN) that provides learnable scale factors for the agent
at every time step to dynamically ascertain whether to award consistent
behavior and the magnitude of rewards. We evaluate DCIR in multiple
environments including Multi-agent Particle, Google Research Football and
StarCraft II Micromanagement, demonstrating its efficacy.
- Abstract(参考訳): マルチエージェントシステムにおけるエージェント毎の最適行動ポリシーの学習は必須だが難しい問題である。
マルチエージェント強化学習は実りある進歩を遂げているが、2つのエージェントが一貫性のある行動を示すべきかどうかのダイナミクスに対処するという課題はまだ未解決である。
本稿では,各エージェントに対して最適なポリシーを学習するために本質的な報酬を利用することで,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習できる新しいアプローチを提案する。
振る舞いの一貫性を、2つのエージェント間の出力アクションの相違として定義することから始めます。
次に,他者の行動に気付くエージェントを刺激し,それと一貫性があるかどうかを判断するために,動的一貫性内在報酬(dcir)を導入する。
最後に,エージェントの学習可能なスケールファクタを各ステップ毎に提供するダイナミックスケールネットワーク(dsn)を考案し,一貫した行動と報酬の程度を動的に確認する。
マルチエージェント粒子, Google Research Football および StarCraft II マイクロマネジメントを含む複数の環境における DCIR の評価を行い,その有効性を示した。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。