論文の概要: NeuFACO: Neural Focused Ant Colony Optimization for Traveling Salesman Problem
- arxiv url: http://arxiv.org/abs/2509.16938v1
- Date: Sun, 21 Sep 2025 06:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.044335
- Title: NeuFACO: Neural Focused Ant Colony Optimization for Traveling Salesman Problem
- Title(参考訳): NeuFACO: トラベリングセールスマン問題に対するニューラルフォーカスアントコロニー最適化
- Authors: Tran Thanh Dat, Tran Quang Khai, Pham Anh Khoi, Vu Van Khu, Do Duc Dong,
- Abstract要約: 本研究では,高度強化学習と拡張Ant Colony Optimization(ACO)を組み合わせた,旅行セールスマン問題(TSP)の非自己回帰的枠組みを提案する。
NeuFACOは、グラフニューラルネットワークをトレーニングするためのエントロピー正規化を備えたPPO(Proximal Policy Optimization)を採用しており、候補リスト、制限されたツアーリファインメント、スケーラブルなローカル検索を備えた最適化されたACOフレームワークに統合されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study presents Neural Focused Ant Colony Optimization (NeuFACO), a non-autoregressive framework for the Traveling Salesman Problem (TSP) that combines advanced reinforcement learning with enhanced Ant Colony Optimization (ACO). NeuFACO employs Proximal Policy Optimization (PPO) with entropy regularization to train a graph neural network for instance-specific heuristic guidance, which is integrated into an optimized ACO framework featuring candidate lists, restricted tour refinement, and scalable local search. By leveraging amortized inference alongside ACO stochastic exploration, NeuFACO efficiently produces high-quality solutions across diverse TSP instances.
- Abstract(参考訳): 本研究では,高度強化学習と拡張Ant Colony Optimization(ACO)を組み合わせた,トラベリングセールスマン問題(TSP)の非自己回帰フレームワークであるNeuFACOを提案する。
NeuFACOは、PPO(Proximal Policy Optimization)とエントロピー正則化(entropy regularization)を採用して、グラフニューラルネットワークをトレーニングして、例えば特定のヒューリスティックガイダンスをトレーニングし、候補リスト、制限されたツアーリファインメント、スケーラブルなローカル検索を備えた最適化されたACOフレームワークに統合する。
ACO確率探索と共に償却推論を活用することにより、NeuFACOは多様なTSPインスタンスにまたがる高品質なソリューションを効率的に生成する。
関連論文リスト
- Return of the Latent Space COWBOYS: Re-thinking the use of VAEs for Bayesian Optimisation of Structured Spaces [13.38402522324075]
本稿では、生成モデルとガウス過程(GP)を個別にシュロゲートし、単純だが原理化されたベイズ更新規則を介してそれらを結合する分離されたアプローチを提案する。
我々は, 分子最適化問題における高ポテンシャル候補を制約評価予算下で同定する能力を, 分離した手法により向上することを示した。
論文 参考訳(メタデータ) (2025-07-05T05:53:04Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization [17.694852175354555]
目的値を介して解の選好を利用する訓練パラダイムであるBOPO(Best-anchored and Objective-Guided Preference Optimization)を提案する。
ジョブショップ問題(JSP)、トラベルセールスマン問題(TSP)、フレキシブルジョブショップスケジューリング問題(FJSP)の実験は、BOPOが最先端のニューラルメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-03-10T17:45:30Z) - Ant Colony Sampling with GFlowNets for Combinatorial Optimization [68.84985459701007]
Generative Flow Ant Colony Sampler (GFACS)は、階層的に償却推論と並列探索を組み合わせた新しいメタヒューリスティック手法である。
提案手法はまず,生成フローネットワーク(GFlowNets)を利用して,解空間上のエンフルティモーダル事前分布を補正する。
この前者は、Ant Colony Optimization (ACO) の精神で並列探索によって更新され、後部分布がほぼ最適解を生成する。
論文 参考訳(メタデータ) (2024-03-11T16:26:06Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。