論文の概要: Towards Learning Multi-agent Negotiations via Self-Play
- arxiv url: http://arxiv.org/abs/2001.10208v1
- Date: Tue, 28 Jan 2020 08:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:15:24.594700
- Title: Towards Learning Multi-agent Negotiations via Self-Play
- Title(参考訳): セルフプレイによるマルチエージェント交渉の学習に向けて
- Authors: Yichuan Charlie Tang
- Abstract要約: 自己再生の反復的な手順が、徐々に多様な環境を創り出す方法を示す。
これは高度で堅牢なマルチエージェントポリシーの学習につながります。
合併操作の成功率は63%から98%に劇的に改善した。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making sophisticated, robust, and safe sequential decisions is at the heart
of intelligent systems. This is especially critical for planning in complex
multi-agent environments, where agents need to anticipate other agents'
intentions and possible future actions. Traditional methods formulate the
problem as a Markov Decision Process, but the solutions often rely on various
assumptions and become brittle when presented with corner cases. In contrast,
deep reinforcement learning (Deep RL) has been very effective at finding
policies by simultaneously exploring, interacting, and learning from
environments. Leveraging the powerful Deep RL paradigm, we demonstrate that an
iterative procedure of self-play can create progressively more diverse
environments, leading to the learning of sophisticated and robust multi-agent
policies. We demonstrate this in a challenging multi-agent simulation of
merging traffic, where agents must interact and negotiate with others in order
to successfully merge on or off the road. While the environment starts off
simple, we increase its complexity by iteratively adding an increasingly
diverse set of agents to the agent "zoo" as training progresses. Qualitatively,
we find that through self-play, our policies automatically learn interesting
behaviors such as defensive driving, overtaking, yielding, and the use of
signal lights to communicate intentions to other agents. In addition,
quantitatively, we show a dramatic improvement of the success rate of merging
maneuvers from 63% to over 98%.
- Abstract(参考訳): 洗練された、堅牢で安全なシーケンシャルな意思決定は、インテリジェントなシステムの中核にある。
これは、エージェントが他のエージェントの意図や将来のアクションを予測する必要がある複雑なマルチエージェント環境での計画において特に重要である。
伝統的な方法はマルコフ決定過程として問題を定式化するが、解はしばしば様々な仮定に依存し、コーナーケースで示されると不安定になる。
対照的に、深層強化学習(Deep RL)は、環境からの探索、相互作用、学習を同時に行うことで、ポリシーを見つけるのに非常に効果的である。
強力な深層rlパラダイムを活用することで,自己プレイの反復的な手順が,段階的に多様な環境を創造し,高度で堅牢なマルチエージェントポリシを学習できることを実証する。
我々は、エージェントが道路上でのマージを成功させるために、他のエージェントと対話し、交渉しなければならない、トラフィックをマージする、挑戦的なマルチエージェントシミュレーションでこれを実証する。
環境はシンプルに始まりますが、トレーニングが進むにつれて、エージェント「動物園」に多様なエージェントを反復的に追加することで複雑さを増します。
質的には、我々のポリシーは、自己再生を通じて、防御的運転、乗っ取り、降伏、および他のエージェントと意図を伝えるための信号灯の使用のような興味深い行動を自動的に学習する。
さらに,63%から98%を超えるマージ操作の成功率に対して,定量的に劇的な改善が見られた。
関連論文リスト
- Active Legibility in Multiagent Reinforcement Learning [3.7828554251478734]
正当性指向のフレームワークは、エージェントが他人の振る舞いを最適化するのを助けるために、妥当なアクションを実行することを可能にする。
実験の結果、新しいフレームワークは、複数のマルチエージェント強化学習アルゴリズムと比較して、より効率的で、トレーニング時間が少ないことが示されている。
論文 参考訳(メタデータ) (2024-10-28T12:15:49Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。