論文の概要: Multi-Start Team Orienteering Problem for UAS Mission Re-Planning with
Data-Efficient Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.01963v1
- Date: Thu, 2 Mar 2023 15:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 14:49:42.953209
- Title: Multi-Start Team Orienteering Problem for UAS Mission Re-Planning with
Data-Efficient Deep Reinforcement Learning
- Title(参考訳): データ効率の高い深層強化学習によるuasミッション再計画のためのマルチスタートチームオリエンテーリング問題
- Authors: Dong Ho Lee and Jaemyung Ahn
- Abstract要約: 我々は、当初車両が補給所から離れた場所にあり、燃料の量が異なるミッション再計画問題について検討する。
そこで我々は,各部分ツアーに対する自己注意と,部分ツアーと残りのノード間のエンコーダ・デコーダの注意を組み込んだポリシーネットワークを構築した。
本稿では,複数の非重複サンプルのロールアウトに基づく局所的なミニバッチベースラインに,グリーディロールアウトベースラインを置き換えたREINFORCEアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.877261093287304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the Multi-Start Team Orienteering Problem (MSTOP), a
mission re-planning problem where vehicles are initially located away from the
depot and have different amounts of fuel. We consider/assume the goal of
multiple vehicles is to travel to maximize the sum of collected profits under
resource (e.g., time, fuel) consumption constraints. Such re-planning problems
occur in a wide range of intelligent UAS applications where changes in the
mission environment force the operation of multiple vehicles to change from the
original plan. To solve this problem with deep reinforcement learning (RL), we
develop a policy network with self-attention on each partial tour and
encoder-decoder attention between the partial tour and the remaining nodes. We
propose a modified REINFORCE algorithm where the greedy rollout baseline is
replaced by a local mini-batch baseline based on multiple, possibly
non-duplicate sample rollouts. By drawing multiple samples per training
instance, we can learn faster and obtain a stable policy gradient estimator
with significantly fewer instances. The proposed training algorithm outperforms
the conventional greedy rollout baseline, even when combined with the maximum
entropy objective.
- Abstract(参考訳): 本稿では,当初車両が補給所から離れた場所にあり,燃料量が異なるミッション再計画問題であるMSTOP(Multi-Start Team Orienteering Problem)について検討する。
我々は、資源(例えば、時間、燃料)消費制約の下で収集した利益の合計を最大化するために、複数の車両の目標を考慮/想定する。
このような再計画問題は、ミッション環境の変化によって複数の車両の運用が元の計画から変更されるような、幅広いインテリジェントなUASアプリケーションで発生する。
深層強化学習(rl)によってこの問題を解決するために,各部分巡回とエンコーダ・デコーダの注意を,部分巡回と残りのノード間の自己着脱性を持ったポリシネットワークを開発した。
本稿では,複数の非重複サンプルのロールアウトに基づく局所的なミニバッチベースラインに,グリーディロールアウトベースラインを置き換えたREINFORCEアルゴリズムを提案する。
トレーニングインスタンス毎に複数のサンプルを描画することで、より速く学習し、より少ないインスタンスで安定したポリシー勾配推定器を得ることができる。
提案するトレーニングアルゴリズムは,最大エントロピー目標と組み合わせた場合でも,従来のグリーディロールアウトベースラインを上回っている。
関連論文リスト
- Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach [0.0]
道路側ユニット(RSU)は、車両に物理プロセスのセットに関するタイムリーな更新を提供する。
定式化問題は多目的混合整数非線形計画問題である。
我々は,各最適化サブプロブレムを解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを開発した。
論文 参考訳(メタデータ) (2024-02-15T16:51:47Z) - Solving Complex Multi-UAV Mission Planning Problems using
Multi-objective Genetic Algorithms [4.198865250277024]
本稿では、複雑なミッション計画問題(MPP)を解決するための多目的遺伝的アルゴリズムを提案する。
ソリューションが有効かどうかを確認するために,制約満足度問題(CSP)を用いてハイブリッドフィットネス関数を設計した。
実験の結果、新しいアルゴリズムは優れた解を得ることができるが、問題がより複雑になると、最適解を見つけることも困難になる。
論文 参考訳(メタデータ) (2024-02-09T16:13:21Z) - Genetic Algorithms with Neural Cost Predictor for Solving Hierarchical Vehicle Routing Problems [20.684353068460375]
車両の経路決定が高次決定と連動する場合、結果の最適化問題は計算に重大な課題をもたらす。
本稿では,ニューラルコスト予測器を用いた遺伝的アルゴリズム(GANCP)という,ディープラーニングに基づく新しいアプローチを提案する。
特に,提案するニューラルネットワークは,静電容量化車両ルーティング問題を解決するHGS-CVRPオープンソースパッケージの目的値について学習する。
論文 参考訳(メタデータ) (2023-10-22T02:46:37Z) - Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文 参考訳(メタデータ) (2023-10-02T11:24:36Z) - DC-MRTA: Decentralized Multi-Robot Task Allocation and Navigation in
Complex Environments [55.204450019073036]
本稿では,倉庫環境における移動ロボットのためのタスク割り当てと分散ナビゲーションアルゴリズムを提案する。
本稿では,共同分散タスク割り当てとナビゲーションの問題について考察し,それを解決するための2段階のアプローチを提案する。
ロボットの衝突のない軌道の計算では,タスク完了時間において最大14%の改善と最大40%の改善が観察される。
論文 参考訳(メタデータ) (2022-09-07T00:35:27Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Supervised Permutation Invariant Networks for Solving the CVRP with
Bounded Fleet Size [3.5235974685889397]
車両ルーティング問題などの最適化問題を解くための学習は、大きな計算上の利点をもたらす。
本研究では,アプリオリ固定数の車両を尊重しながら,スクラッチから完全なツアー計画を構築する強力な教師付きディープラーニングフレームワークを提案する。
効率的な後処理方式と組み合わせることで,教師付きアプローチはより高速かつ容易にトレーニングできるだけでなく,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-01-05T10:32:18Z) - Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning [0.0]
UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-18T23:37:53Z) - Continual Learning using a Bayesian Nonparametric Dictionary of Weight
Factors [75.58555462743585]
訓練されたニューラルネットワークは、シーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。
Indian Buffet Process (IBP) に基づく原則的非パラメトリック手法を提案する。
連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。
論文 参考訳(メタデータ) (2020-04-21T15:20:19Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。