論文の概要: Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous
- arxiv url: http://arxiv.org/abs/2003.06906v2
- Date: Mon, 9 Nov 2020 05:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:37:27.341181
- Title: Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous
- Title(参考訳): 分散マルチエージェントランデブーのためのモデルベース強化学習
- Authors: Rose E. Wang, J. Chase Kew, Dennis Lee, Tsang-Wei Edward Lee, Tingnan
Zhang, Brian Ichter, Jie Tan, Aleksandra Faust
- Abstract要約: 目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
- 参考スコア(独自算出の注目度): 66.6895109554163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaboration requires agents to align their goals on the fly. Underlying the
human ability to align goals with other agents is their ability to predict the
intentions of others and actively update their own plans. We propose
hierarchical predictive planning (HPP), a model-based reinforcement learning
method for decentralized multiagent rendezvous. Starting with pretrained,
single-agent point to point navigation policies and using noisy,
high-dimensional sensor inputs like lidar, we first learn via self-supervision
motion predictions of all agents on the team. Next, HPP uses the prediction
models to propose and evaluate navigation subgoals for completing the
rendezvous task without explicit communication among agents. We evaluate HPP in
a suite of unseen environments, with increasing complexity and numbers of
obstacles. We show that HPP outperforms alternative reinforcement learning,
path planning, and heuristic-based baselines on challenging, unseen
environments. Experiments in the real world demonstrate successful transfer of
the prediction models from sim to real world without any additional
fine-tuning. Altogether, HPP removes the need for a centralized operator in
multiagent systems by combining model-based RL and inference methods, enabling
agents to dynamically align plans.
- Abstract(参考訳): 協力するには、エージェントが目標を順守する必要がある。
目標を他のエージェントと協調する人間の能力の基盤は、他人の意図を予測し、積極的に自身の計画を更新できる能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
事前訓練された単一エージェント対ポイントナビゲーションポリシから始まり、ライダーのようなノイズの多い高次元センサー入力を使用して、まず、チームのすべてのエージェントの自己超越動作予測を通じて学習する。
次に、HPPは予測モデルを用いて、エージェント間の明示的なコミュニケーションなしでランデブータスクを完了するためのナビゲーションサブゴールの提案と評価を行う。
hppは, 複雑化と障害数の増加を伴い, 未発見の環境のスイートで評価する。
hppは,難易度の高い非知覚環境において,代替強化学習,経路計画,ヒューリスティックベースベースラインよりも優れていることを示す。
実世界の実験では、追加の微調整なしでsimから実世界への予測モデルの転送に成功した。
さらに、HPPはモデルベースのRLと推論メソッドを組み合わせることで、マルチエージェントシステムにおける集中演算子の必要性を排除し、エージェントが計画の動的整合を可能にする。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning Control Admissibility Models with Graph Neural Networks for
Multi-Agent Navigation [9.05607520128194]
制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。
CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-17T19:20:58Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Deep Interactive Motion Prediction and Planning: Playing Games with
Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。
本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文 参考訳(メタデータ) (2022-04-05T17:58:18Z) - Learning Efficient Multi-Agent Cooperative Visual Exploration [18.42493808094464]
複数のエージェントによる視覚的屋内探索の課題を考察し、エージェントはできるだけ少ないステップで屋内全領域を探索する必要がある。
我々は、最先端の単一エージェントRLソリューションであるActive Neural SLAM(ANS)を、新しいRLベースのグローバルゴールプランナーであるSpatial Coordination Planner(SCP)を導入してマルチエージェント設定に拡張する。
SCPは、各エージェントの空間情報をエンドツーエンドに活用し、探索効率の高い異なる空間目標に向けて効果的にエージェントを誘導する。
論文 参考訳(メタデータ) (2021-10-12T04:48:10Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。