論文の概要: Deep Reinforcement Learning for Real-Time Drone Routing in Post-Disaster Road Assessment Without Domain Knowledge
- arxiv url: http://arxiv.org/abs/2509.01886v1
- Date: Tue, 02 Sep 2025 02:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.881264
- Title: Deep Reinforcement Learning for Real-Time Drone Routing in Post-Disaster Road Assessment Without Domain Knowledge
- Title(参考訳): ドメイン知識のない災害後道路アセスメントにおけるリアルタイムドローンルーティングのための深層強化学習
- Authors: Huatian Gong, Jiuh-Biing Sheu, Zheng Wang, Xiaoguang Yang, Ran Yan,
- Abstract要約: 災害後の道路被害評価は、効果的な緊急対応に不可欠である。
従来の最適化手法は過剰な計算時間に悩まされ、アルゴリズム設計にドメイン知識を必要とする。
本研究では,リアルタイムドローン経路決定のための注意型エンコーダデコーダモデル(AEDM)を提案する。
- 参考スコア(独自算出の注目度): 14.07560120879767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid post-disaster road damage assessment is critical for effective emergency response, yet traditional optimization methods suffer from excessive computational time and require domain knowledge for algorithm design, making them unsuitable for time-sensitive disaster scenarios. This study proposes an attention-based encoder-decoder model (AEDM) for real-time drone routing decision in post-disaster road damage assessment. The method employs deep reinforcement learning to determine high-quality drone assessment routes without requiring algorithmic design knowledge. A network transformation method is developed to convert link-based routing problems into equivalent node-based formulations, while a synthetic road network generation technique addresses the scarcity of large-scale training datasets. The model is trained using policy optimization with multiple optima (POMO) with multi-task learning capabilities to handle diverse parameter combinations. Experimental results demonstrate two key strengths of AEDM: it outperforms commercial solvers by 16--69\% in solution quality and achieves real-time inference (1--2 seconds) versus 100--2,000 seconds for traditional methods. The model exhibits strong generalization across varying problem scales, drone numbers, and time constraints, consistently outperforming baseline methods on unseen parameter distributions and real-world road networks. The proposed method effectively balances computational efficiency with solution quality, making it particularly suitable for time-critical disaster response applications where rapid decision-making is essential for saving lives.
- Abstract(参考訳): しかし、従来の最適化手法は過度な計算時間に悩まされ、アルゴリズム設計にドメイン知識を必要とするため、時間に敏感な災害シナリオには適さない。
本研究では,アテンションベースエンコーダデコーダモデル(AEDM)を提案する。
この手法は、アルゴリズム設計知識を必要とせずに高品質なドローン評価経路を決定するために、深層強化学習を用いる。
リンクベースのルーティング問題を等価ノードベースの定式化に変換するネットワーク変換法が開発され,大規模なトレーニングデータセットの不足に対処する合成道路ネットワーク生成技術が開発された。
このモデルは、多タスク学習機能を備えた複数最適(POMO)によるポリシー最適化を用いて、多様なパラメータの組み合わせを扱うように訓練されている。
AEDMの2つの重要な強みが示される: ソリューションの品質が16-69\%向上し、従来の手法では100-2000秒に対してリアルタイム推論(1--2秒)が達成される。
このモデルは、様々な問題スケール、ドローン番号、時間制約にまたがる強力な一般化を示し、目に見えないパラメータ分布や現実の道路網のベースライン手法を一貫して上回っている。
提案手法は, 計算効率とソリューション品質のバランスを効果的に保ち, 迅速な意思決定が命を救うのに欠かせない, 時間クリティカルな災害対応アプリケーションに特に適している。
関連論文リスト
- Reinforcement Learning-based Sequential Route Recommendation for System-Optimal Traffic Assignment [8.598431584462944]
本稿では,静的なSOトラフィック割り当て問題を単一エージェントの深層強化学習タスクとして再構成する学習ベースフレームワークを提案する。
我々は,従来の交通割当手法の反復構造をRL学習プロセスに統合する,MSA誘導深度Q-ラーニングアルゴリズムを開発した。
その結果, RL はBraess ネットワークにおける理論 SO 解に収束し, OW ネットワークにおける 0.35% の偏差しか得られないことがわかった。
論文 参考訳(メタデータ) (2025-05-27T08:33:02Z) - RLER-TTE: An Efficient and Effective Framework for En Route Travel Time Estimation with Reinforcement Learning [5.4674463400564886]
En Route Travel Time Estimationは、走行経路から運転パターンを学習し、迅速かつ正確なリアルタイム予測を実現することを目的としている。
既存の手法は、実世界の交通システムの複雑さとダイナミズムを無視し、結果としてリアルタイムシナリオにおける効率と正確性に大きなギャップが生じる。
本稿では,ER-TTEの経路実装を再定義し,高効率かつ効率的な予測を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T11:49:34Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Path Design and Resource Management for NOMA enhanced Indoor Intelligent
Robots [58.980293789967575]
通信可能な屋内知的ロボット(IR)サービスフレームワークを提案する。
室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法が提案されている。
調査対象の無線マップは、強化学習エージェントを訓練するための仮想環境として呼び出される。
論文 参考訳(メタデータ) (2020-11-23T21:45:01Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-13T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。