論文の概要: An End-to-End Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drones
- arxiv url: http://arxiv.org/abs/2511.05265v1
- Date: Fri, 07 Nov 2025 14:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.787905
- Title: An End-to-End Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drones
- Title(参考訳): ドローンによるトラベリングセールスマン問題の解決のためのエンド・ツー・エンド深層強化学習手法
- Authors: Taihelong Zeng, Yun Lin, Yuhe Shi, Yan Li, Zhiqing Wei, Xuanru Ji,
- Abstract要約: 本研究では、ドローンによるトラベリングセールスマン問題(TSP-D)を解決するための階層的アクター・クリティカル深部強化学習フレームワークを提案する。
アーキテクチャは、Transformerにインスパイアされたエンコーダと、効率の良いMinimal Gated Unitデコーダの2つの主要な計算で構成されている。
フレームワーク全体が非同期のアドバンテージアクター-クリティカルパラダイム内で動作します。
- 参考スコア(独自算出の注目度): 12.385878815004283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of truck-drone collaborative systems in last-mile logistics has positioned the Traveling Salesman Problem with Drones (TSP-D) as a pivotal extension of classical routing optimization, where synchronized vehicle coordination promises substantial operational efficiency and reduced environmental impact, yet introduces NP-hard combinatorial complexity beyond the reach of conventional optimization paradigms. Deep reinforcement learning offers a theoretically grounded framework to address TSP-D's inherent challenges through self-supervised policy learning and adaptive decision-making. This study proposes a hierarchical Actor-Critic deep reinforcement learning framework for solving the TSP-D problem. The architecture consists of two primary components: a Transformer-inspired encoder and an efficient Minimal Gated Unit decoder. The encoder incorporates a novel, optimized k-nearest neighbors sparse attention mechanism specifically for focusing on relevant spatial relationships, further enhanced by the integration of global node features. The Minimal Gated Unit decoder processes these encoded representations to efficiently generate solution sequences. The entire framework operates within an asynchronous advantage actor-critic paradigm. Experimental results show that, on benchmark TSP-D instances of various scales (N=10 to 100), the proposed model can obtain competitive or even superior solutions in shorter average computation times compared to high-performance heuristic algorithms and existing reinforcement learning methods. Moreover, compared to advanced reinforcement learning algorithm benchmarks, the proposed framework significantly reduces the total training time required while achieving superior final performance, highlighting its notable advantage in training efficiency.
- Abstract(参考訳): 最終マイルのロジスティクスにおけるトラックとドローンの協調システムの出現は、トラベルセールスマン問題(TSP-D)を古典的なルーティング最適化の重要な拡張として位置づけている。
深層強化学習は、自己監督型政策学習と適応型意思決定を通じて、TSP-Dの固有の課題に対処するための理論的基盤となるフレームワークを提供する。
本研究では,TSP-D問題を解くための階層的アクター・クライト深層強化学習フレームワークを提案する。
アーキテクチャは、Transformerにインスパイアされたエンコーダと、効率の良いMinimal Gated Unitデコーダの2つの主要コンポーネントで構成されている。
このエンコーダは、グローバルノード機能の統合によりさらに強化され、関係する空間的関係に焦点をあてる、新しく最適化されたk-アレスト近傍のスパースアテンション機構を組み込んでいる。
最小ゲートユニットデコーダは、これらの符号化された表現を処理し、解列を効率的に生成する。
フレームワーク全体が非同期のアドバンテージアクター-クリティカルパラダイム内で動作します。
実験結果から,様々なスケール (N=10〜100) のベンチマークTSP-Dインスタンスにおいて,提案手法は,高性能ヒューリスティックアルゴリズムや既存の強化学習手法と比較して,より短い平均計算時間で競合的,あるいは優れた解が得られることが示された。
さらに, 高度な強化学習アルゴリズムベンチマークと比較して, 提案フレームワークは, 優れた最終性能を達成しつつ, トレーニング時間を大幅に短縮し, トレーニング効率の顕著な優位性を浮き彫りにした。
関連論文リスト
- XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning [26.063477716451512]
我々は,ソフトアクター・クリティックをベースとした,よく動機付けられた,サンプル効率の高いディープアクター・クリティックアルゴリズムであるXQCを紹介する。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-09-29T17:58:53Z) - Efficient Split Federated Learning for Large Language Models over Communication Networks [45.02252893286613]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することで、リソース制約のあるエッジネットワークにおいて大きな課題が生じる。
本稿では,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるSflLLMを提案する。
モデル分割とローランク適応(LoRA)を活用することにより、SflLLMはエッジデバイスの計算負担を軽減する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - Towards Constraint-Based Adaptive Hypergraph Learning for Solving Vehicle Routing: An End-to-End Solution [4.965709007367529]
車両の経路問題は、広大な解空間と複雑な制約によって特徴づけられる。
本研究では,制約指向のハイパーグラフと強化学習を組み合わせた新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T14:42:44Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Collaborative Multidisciplinary Design Optimization with Neural Networks [1.2691047660244335]
協調最適化の場合、二項分類の興味深い問題を解くことにより、より高速で信頼性の高い収束が得られることを示す。
本稿では,非対称な損失関数,リプシッツ連続性を保証する構造,基本距離関数の性質を尊重する正規化を含むニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-06-11T00:03:47Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。