論文の概要: Learning to Simulate Self-Driven Particles System with Coordinated
Policy Optimization
- arxiv url: http://arxiv.org/abs/2110.13827v1
- Date: Tue, 26 Oct 2021 16:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:48:33.134213
- Title: Learning to Simulate Self-Driven Particles System with Coordinated
Policy Optimization
- Title(参考訳): 協調ポリシー最適化による自己駆動粒子システムシミュレーションの学習
- Authors: Zhenghao Peng, Quanyi Li, Ka Ming Hui, Chunxiao Liu, Bolei Zhou
- Abstract要約: 自己駆動粒子 (Self-Driven Particles, SDP) は、鳥類の群れや交通の流れなど、日常生活に共通するマルチエージェントシステムのカテゴリである。
従来のマルチエージェント強化学習(MARL)メソッドは、手前にチームメイトや敵となるエージェントを定義する。
本研究では,社会心理学の原則を取り入れた協調政策最適化(CoPO)と呼ばれる新しいMARL手法を開発し,SDPの神経制御を学習する。
- 参考スコア(独自算出の注目度): 36.113662645486755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Driven Particles (SDP) describe a category of multi-agent systems common
in everyday life, such as flocking birds and traffic flows. In a SDP system,
each agent pursues its own goal and constantly changes its cooperative or
competitive behaviors with its nearby agents. Manually designing the
controllers for such SDP system is time-consuming, while the resulting emergent
behaviors are often not realistic nor generalizable. Thus the realistic
simulation of SDP systems remains challenging. Reinforcement learning provides
an appealing alternative for automating the development of the controller for
SDP. However, previous multi-agent reinforcement learning (MARL) methods define
the agents to be teammates or enemies before hand, which fail to capture the
essence of SDP where the role of each agent varies to be cooperative or
competitive even within one episode. To simulate SDP with MARL, a key challenge
is to coordinate agents' behaviors while still maximizing individual
objectives. Taking traffic simulation as the testing bed, in this work we
develop a novel MARL method called Coordinated Policy Optimization (CoPO),
which incorporates social psychology principle to learn neural controller for
SDP. Experiments show that the proposed method can achieve superior performance
compared to MARL baselines in various metrics. Noticeably the trained vehicles
exhibit complex and diverse social behaviors that improve performance and
safety of the population as a whole. Demo video and source code are available
at: https://decisionforce.github.io/CoPO/
- Abstract(参考訳): 自己駆動粒子 (Self-Driven Particles, SDP) は、鳥類の群れや交通の流れなど、日常生活に共通するマルチエージェントシステムのカテゴリである。
SDPシステムでは、各エージェントは自身の目標を追求し、近くのエージェントと協調的または競争的な振る舞いを常に変更する。
このようなSDPシステムのコントローラを手動で設計するのは時間を要するが、結果として生じる行動は現実的で一般化できないことが多い。
したがって、SDPシステムの現実的なシミュレーションは依然として困難である。
強化学習は、SDP用コントローラの開発を自動化するための魅力的な代替手段を提供する。
しかし、従来のマルチエージェント強化学習(MARL)手法では、エージェントを手前のチームメイトや敵と定義しており、各エージェントの役割が1回でも協調的または競争的であるようなSDPの本質を捉えていない。
MARLでSDPをシミュレートするには、エージェントの行動を調整し、個々の目的を最大化する。
本研究は,交通シミュレーションをテストベッドとし,SDPの神経制御を学習するための社会心理学的原理を取り入れた,CoPO(Coordinated Policy Optimization)と呼ばれる新しいMARL手法を開発した。
実験により,提案手法は様々な指標においてMARLベースラインよりも優れた性能が得られることが示された。
訓練された車両は、人口全体のパフォーマンスと安全性を向上させる複雑な多様な社会的行動を示す。
デモビデオとソースコードは、https://decisionforce.github.io/copo/で入手できる。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-05T03:59:01Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Where to go next: Learning a Subgoal Recommendation Policy for
Navigation Among Pedestrians [40.58684597726312]
モデル予測制御(MPC)のような局所軌道最適化手法は、これらの変化に対処できるが、大域的なガイダンスを必要とする。
本稿では,地域プランナーに長期指導を提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。
論文 参考訳(メタデータ) (2021-02-25T18:41:58Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。