論文の概要: Deep Reinforcement Learning for Orienteering Problems Based on
Decomposition
- arxiv url: http://arxiv.org/abs/2204.11575v1
- Date: Mon, 25 Apr 2022 11:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 18:00:33.860043
- Title: Deep Reinforcement Learning for Orienteering Problems Based on
Decomposition
- Title(参考訳): 分解に基づく指向性問題に対する深層強化学習
- Authors: Wei Liu, Tao Zhang, Rui Wang, Kaiwen Li, Wenhua Li, and Kang Yang
- Abstract要約: 本稿では, Knapsack problem (KP) と travel salesman problem (TSP) の2つに分割して, オリエンテーリング問題 (OP) の解法を提案する。
KPソルバはノードの選択に責任を持ち、TSPソルバは適切なパスを設計し、制約違反を判断するKPソルバを支援する。
実験結果から,提案アルゴリズムはトレーニング,推論,能力一般化の点で従来の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 13.332999086010718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new method for solving an orienteering problem (OP) by
breaking it down into two parts: a knapsack problem (KP) and a traveling
salesman problem (TSP). A KP solver is responsible for picking nodes, while a
TSP solver is responsible for designing the proper path and assisting the KP
solver in judging constraint violations. To address constraints, we propose a
dual-population coevolutionary algorithm (DPCA) as the KP solver, which
simultaneously maintains both feasible and infeasible populations. A dynamic
pointer network (DYPN) is introduced as the TSP solver, which takes city
locations as inputs and immediately outputs a permutation of nodes. The model,
which is trained by reinforcement learning, can capture both the structural and
dynamic patterns of the given problem. The model can generalize to other
instances with different scales and distributions. Experimental results show
that the proposed algorithm can outperform conventional approaches in terms of
training, inference, and generalization ability.
- Abstract(参考訳): そこで本論文では,knapsack problem (KP) と travel salesman problem (TSP) の2つに分割することで,OP(Orienteering problem) の解法を提案する。
KPソルバはノードの選択に責任を持ち、TSPソルバは適切なパスを設計し、制約違反を判断するKPソルバを支援する。
制約に対処するため,両集団共進化アルゴリズム(DPCA)をKPソルバとして提案する。
動的ポインタネットワーク(DYPN)はTSPソルバとして導入され、都市の位置を入力として取り、即座にノードの置換を出力する。
このモデルは強化学習によって訓練され、与えられた問題の構造的パターンと動的パターンの両方を捉えることができる。
モデルは、異なるスケールと分布を持つ他のインスタンスに一般化することができる。
実験の結果,提案手法は,訓練,推論,一般化能力において従来の手法よりも優れていた。
関連論文リスト
- Learn to Tour: Operator Design For Solution Feasibility Mapping in Pickup-and-delivery Traveling Salesman Problem [12.34897099691387]
本稿では,旅行セールスマン問題(TSP)の学習方法を提案する。
1対1のピックアップ・アンド・デリバリノードのシーケンスで一番短いツアーを見つける。
PDTSPでは、各ピックアップノードを対応する配信ノードの前に訪問しなければならないという優先的な制約を満たさなければならない。
論文 参考訳(メタデータ) (2024-04-17T15:05:51Z) - Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO [0.0]
本稿では、量子アニーリングアルゴリズムとグラフニューラルネットワークによるトラベリングセールスマン問題(TSP)の解法として、二次非拘束バイナリ最適化(QUBO)モデルの適用について検討する。
TSP(QGNN-TSP)のためのグラフニューラルネットワークソリューションを導入し、問題の基盤構造を学習し、QUBOに基づく損失関数の勾配降下による競合ソリューションを生成する。
論文 参考訳(メタデータ) (2024-02-21T05:55:00Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Compositional Diffusion-Based Continuous Constraint Solvers [98.1702285470628]
本稿では,ロボット推論と計画における連続的制約満足度問題(CCSP)の解法について紹介する。
対照的に、構成拡散連続制約解法(Diffusion-CCSP)は、CCSPに対する大域的な解を導出する。
論文 参考訳(メタデータ) (2023-09-02T15:20:36Z) - Solving the Traveling Salesperson Problem with Precedence Constraints by
Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。
これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) (2022-07-04T14:31:47Z) - Learning to Solve Routing Problems via Distributionally Robust
Optimization [14.506553345693536]
ルーティング問題を解決するための最近のディープモデルでは、トレーニング用のノードの単一分布が想定されており、分散一般化能力を著しく損なう。
この問題に対処するために、群分布的ロバストな最適化(グループDRO)を活用し、異なる分布群に対する重み付けと深層モデルのパラメータを、トレーニング中にインターリーブされた方法で共同で最適化する。
また、畳み込みニューラルネットワークに基づくモジュールを設計し、ディープモデルがノード間のより情報に富んだ潜在パターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-02-15T08:06:44Z) - Improved Acyclicity Reasoning for Bayesian Network Structure Learning
with Constraint Programming [0.0]
離散データからベイズネットワーク(BNSL)の構造を学習することはNPハードタスクであることが知られている。
本研究では,可能なクラスタカットのサブセットを発見するための新しい時間アルゴリズムを提案する。
最適ではないにもかかわらず、性能は桁違いに向上することを示す。
結果として得られる解法は、BNSL問題に対する最先端の解法である GOBNILP と好意的に比較できる。
論文 参考訳(メタデータ) (2021-06-23T09:46:11Z) - Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning [12.523496806744946]
本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
論文 参考訳(メタデータ) (2021-05-26T13:52:39Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。