論文の概要: Multi-agent Motion Planning for Dense and Dynamic Environments via Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.06627v1
- Date: Sat, 18 Jan 2020 08:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 05:03:56.373136
- Title: Multi-agent Motion Planning for Dense and Dynamic Environments via Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習による高密度・動的環境のマルチエージェント運動計画
- Authors: Samaneh Hosseini Semnani, Hugh Liu, Michael Everett, Anton de Ruiter,
Jonathan P. How
- Abstract要約: 本稿では、分散動作計画問題の解法として、深部強化学習(RL)とFMP(Force-based Motion Planning)のハイブリッドアルゴリズムを提案する。
FMPは時間最適経路を生成できず、既存のRLソリューションは高密度環境では衝突のない経路を生成できない。
シミュレーションの結果,提案アルゴリズムは深部RLアルゴリズムとFMPアルゴリズムより優れていた。
- 参考スコア(独自算出の注目度): 33.38497202718921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a hybrid algorithm of deep reinforcement learning (RL)
and Force-based motion planning (FMP) to solve distributed motion planning
problem in dense and dynamic environments. Individually, RL and FMP algorithms
each have their own limitations. FMP is not able to produce time-optimal paths
and existing RL solutions are not able to produce collision-free paths in dense
environments. Therefore, we first tried improving the performance of recent RL
approaches by introducing a new reward function that not only eliminates the
requirement of a pre supervised learning (SL) step but also decreases the
chance of collision in crowded environments. That improved things, but there
were still a lot of failure cases. So, we developed a hybrid approach to
leverage the simpler FMP approach in stuck, simple and high-risk cases, and
continue using RL for normal cases in which FMP can't produce optimal path.
Also, we extend GA3C-CADRL algorithm to 3D environment. Simulation results show
that the proposed algorithm outperforms both deep RL and FMP algorithms and
produces up to 50% more successful scenarios than deep RL and up to 75% less
extra time to reach goal than FMP.
- Abstract(参考訳): 本稿では,高密度・動的環境における分散動作計画問題の解法として,深部強化学習(RL)とFMP(Force-based Motion Planning)のハイブリッドアルゴリズムを提案する。
RLとFMPのアルゴリズムにはそれぞれ独自の制限がある。
FMPは時間最適経路を生成できず、既存のRLソリューションは高密度環境では衝突のない経路を生成できない。
そこで,我々はまず,事前教師付き学習(SL)ステップの要求を解消するだけでなく,混み合った環境下での衝突の可能性を低減できる新たな報奨関数を導入することにより,最近のRL手法の性能向上を試みた。
これは改善したが、まだ多くの障害ケースがあった。
そこで我々は,よりシンプルなFMPアプローチをスタント,シンプル,高リスクのケースで活用するハイブリッドアプローチを開発し,FMPが最適経路を生成できない場合に対してRLを継続する。
また,GA3C-CADRLアルゴリズムを3次元環境に拡張する。
シミュレーションの結果、提案アルゴリズムは深部RLとFMPのアルゴリズムより優れており、深部RLよりも最大50%のシナリオが成功し、FMPよりも目標を達成するのに最大75%の時間を要した。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Efficient Reinforcement Learning in Factored MDPs with Application to
Constrained RL [25.119552984253882]
マルコフ決定過程(FMDP)における強化学習について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
応用として,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新しい定式化について検討する。
論文 参考訳(メタデータ) (2020-08-31T02:20:41Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。