論文の概要: Multi-Agent Path Planning Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.01460v1
- Date: Mon, 4 Oct 2021 13:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:50:58.935145
- Title: Multi-Agent Path Planning Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いたマルチエージェントパス計画
- Authors: Mert \c{C}etinkaya
- Abstract要約: 本稿では, 深部強化型マルチエージェントパス計画手法を提案する。
この実験はシミュレーション環境で実現され、この環境では異なるマルチエージェントパス計画問題が発生する。
生成した問題は実際に車両経路問題と類似しており、多エージェント深部強化学習を用いて解かれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper a deep reinforcement based multi-agent path planning approach
is introduced. The experiments are realized in a simulation environment and in
this environment different multi-agent path planning problems are produced. The
produced problems are actually similar to a vehicle routing problem and they
are solved using multi-agent deep reinforcement learning. In the simulation
environment, the model is trained on different consecutive problems in this way
and, as the time passes, it is observed that the model's performance to solve a
problem increases. Always the same simulation environment is used and only the
location of target points for the agents to visit is changed. This contributes
the model to learn its environment and the right attitude against a problem as
the episodes pass. At the end, a model who has already learned a lot to solve a
path planning or routing problem in this environment is obtained and this model
can already find a nice and instant solution to a given unseen problem even
without any training. In routing problems, standard mathematical modeling or
heuristics seem to suffer from high computational time to find the solution and
it is also difficult and critical to find an instant solution. In this paper a
new solution method against these points is proposed and its efficiency is
proven experimentally.
- Abstract(参考訳): 本稿では,深層補強型マルチエージェント経路計画手法を提案する。
実験はシミュレーション環境で実現され、この環境では異なるマルチエージェント経路計画問題が発生する。
生成した問題は実際に車両経路問題と類似しており、多エージェント深部強化学習を用いて解かれる。
シミュレーション環境では、この方法で異なる連続問題に基づいてモデルを訓練し、時間経過とともに、その問題を解決するためのモデルの性能が増大することが観察される。
常に同じシミュレーション環境を使用し、訪問するエージェントのターゲットポイントの位置だけを変更する。
これは、エピソードが通過するにつれて、その環境と問題に対する正しい態度を学ぶモデルに寄与する。
最終的に、この環境で経路計画やルーティングの問題を解決するために既に多くのことを学んだモデルが得られ、このモデルは、トレーニングなしでも、与えられた未知の問題に対して、優しく即時に解決できる。
ルーティング問題では、標準的な数学的モデリングやヒューリスティックスは解を見つけるのに高い計算時間に悩まされ、また、即時解を見つけることも困難かつ重要である。
本稿では,これらの点に対する新しい解法を提案し,その効率を実験的に証明する。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Solving the Team Orienteering Problem with Transformers [46.93254771681026]
車両群のためのルートプランニングは、荷物の配送、監視、輸送といった応用において重要な課題である。
本稿では,チームオリエンテーリング問題を高速かつ高精度に解決できる多エージェント経路計画システムを提案する。
論文 参考訳(メタデータ) (2023-11-30T16:10:35Z) - Parallel Automatic History Matching Algorithm Using Reinforcement
Learning [0.0]
マルコフ決定過程にヒストリマッチング問題を再構成し,その問題を解決するために強化学習を利用する方法を提案する。
人工深層ニューラルネットワークエージェントが貯留層シミュレータと相互作用し、その問題に対する複数の異なる解を見つける機構を提供する。
論文 参考訳(メタデータ) (2022-11-14T15:09:39Z) - Gradient Optimization for Single-State RMDPs [0.0]
自律運転、ロボット部品の制御、医療診断といった現代の問題は、分析的に解決することがますます困難になっている。
データ駆動型ソリューションは、人によって理解される以上の複雑さの次元に問題があるという強力な選択肢です。
残念ながら、データ駆動モデルは最悪のシナリオでどのように機能するかに不確実性を伴うことが多い。
自律運転や医療などの分野では、これらの障害の結果は破滅的なものになる可能性がある。
論文 参考訳(メタデータ) (2022-09-25T18:50:02Z) - Combining Reinforcement Learning and Optimal Transport for the Traveling
Salesman Problem [18.735056206844202]
我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。
また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。
論文 参考訳(メタデータ) (2022-03-02T07:21:56Z) - Minimizing Entropy to Discover Good Solutions to Recurrent Mixed Integer
Programs [0.0]
混合整数プログラミング(MIP)問題に対する現在の解法は、幅広い問題に対して良好に動作するように設計されている。
近年の研究では、機械学習(ML)をMIPソルバと統合してドメイン知識を注入し、最適性ギャップを効率的に閉じることが示されている。
本稿では、エントロピーの概念を用いて、最小限のトレーニングデータとチューニングで効率的にモデルを構築するオンラインソルバを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:52:56Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。