論文の概要: Reinforcement Learning-based Non-Autoregressive Solver for Traveling Salesman Problems
- arxiv url: http://arxiv.org/abs/2308.00560v3
- Date: Wed, 16 Oct 2024 06:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:58.859315
- Title: Reinforcement Learning-based Non-Autoregressive Solver for Traveling Salesman Problems
- Title(参考訳): 強化学習に基づくトラベリングセールスマン問題に対する非自己回帰解法
- Authors: Yubin Xiao, Di Wang, Boyang Li, Huanhuan Chen, Wei Pang, Xuan Wu, Hao Li, Dong Xu, Yanchun Liang, You Zhou,
- Abstract要約: 特殊設計アーキテクチャと強化強化学習戦略を取り入れた新しいNARモデルNAR4TSPを提案する。
NAR4TSPは、ソリューションの品質、推論速度、そして予測できないシナリオへの一般化の点で、最先端の5つのモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 35.858398996676506
- License:
- Abstract: The Traveling Salesman Problem (TSP) is a well-known combinatorial optimization problem with broad real-world applications. Recently, neural networks have gained popularity in this research area because as shown in the literature, they provide strong heuristic solutions to TSPs. Compared to autoregressive neural approaches, non-autoregressive (NAR) networks exploit the inference parallelism to elevate inference speed but suffer from comparatively low solution quality. In this paper, we propose a novel NAR model named NAR4TSP, which incorporates a specially designed architecture and an enhanced reinforcement learning strategy. To the best of our knowledge, NAR4TSP is the first TSP solver that successfully combines RL and NAR networks. The key lies in the incorporation of NAR network output decoding into the training process. NAR4TSP efficiently represents TSP encoded information as rewards and seamlessly integrates it into reinforcement learning strategies, while maintaining consistent TSP sequence constraints during both training and testing phases. Experimental results on both synthetic and real-world TSPs demonstrate that NAR4TSP outperforms five state-of-the-art models in terms of solution quality, inference speed, and generalization to unseen scenarios.
- Abstract(参考訳): トラベリングセールスマン問題 (TSP) は、幅広い現実世界の応用においてよく知られた組合せ最適化問題である。
近年、文献に示すように、TSPに対する強いヒューリスティックな解決策を提供するため、この研究領域でニューラルネットワークが人気を集めている。
自己回帰ニューラルネットワークと比較して、非自己回帰(NAR)ネットワークは推論の並列性を利用して推論速度を向上するが、比較的低い解品質に悩まされる。
本稿では,特殊設計アーキテクチャと強化強化学習戦略を取り入れた新しいNARモデルNAR4TSPを提案する。
我々の知る限り、NAR4TSPは、RLとNARネットワークをうまく組み合わせた最初のTSPソルバである。
鍵となるのは、NARネットワーク出力デコードをトレーニングプロセスに組み込むことにある。
NAR4TSPは、TSPエンコードされた情報を報酬として効率的に表現し、トレーニングとテストの段階で一貫したTSPシーケンス制約を維持しながら、強化学習戦略にシームレスに統合する。
合成TSPと実世界のTSPの両方の実験結果から、NAR4TSPはソリューションの品質、推論速度、予測不可能なシナリオへの一般化の点で、最先端の5つのモデルより優れていることが示された。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - CCSRP: Robust Pruning of Spiking Neural Networks through Cooperative Coevolution [2.5388345537743056]
スパイキングニューラルネットワーク(SNN)は、様々な動的視覚タスクにおいて有望であることを示しているが、現実的なデプロイメントの準備が整ったものは、リソース制限と安全クリティカルな設定に不可欠なコンパクト性と堅牢性を欠いていることが多い。
我々は,協調的共進化を基盤としたSNNの革新的な頑健な刈り取り法であるCSRPを提案する。
論文 参考訳(メタデータ) (2024-07-18T04:28:16Z) - Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO [0.0]
本稿では、量子アニーリングアルゴリズムとグラフニューラルネットワークによるトラベリングセールスマン問題(TSP)の解法として、二次非拘束バイナリ最適化(QUBO)モデルの適用について検討する。
TSP(QGNN-TSP)のためのグラフニューラルネットワークソリューションを導入し、問題の基盤構造を学習し、QUBOに基づく損失関数の勾配降下による競合ソリューションを生成する。
論文 参考訳(メタデータ) (2024-02-21T05:55:00Z) - LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks
with TTFS Coding [55.64533786293656]
我々は,AIタスクにおいて,ANNのアクティベーション値とSNNのスパイク時間とのほぼ完全なマッピングを実現することができることを示す。
この研究は、電力制約のあるエッジコンピューティングプラットフォームに超低消費電力のTTFSベースのSNNをデプロイする方法を舗装している。
論文 参考訳(メタデータ) (2023-10-23T14:26:16Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Travel the Same Path: A Novel TSP Solving Strategy [0.0]
我々は、必要に応じて適切な選択を行う決定論的アルゴリズムを支援する模倣学習フレームワークについて検討する。
我々は、模倣学習フレームワークの下で訓練されたグラフニューラルネットワークの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-12T03:56:37Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。