論文の概要: Combining Reinforcement Learning and Optimal Transport for the Traveling
Salesman Problem
- arxiv url: http://arxiv.org/abs/2203.00903v1
- Date: Wed, 2 Mar 2022 07:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 04:04:43.622202
- Title: Combining Reinforcement Learning and Optimal Transport for the Traveling
Salesman Problem
- Title(参考訳): トラベリングセールスマン問題に対する強化学習と最適輸送の併用
- Authors: Yong Liang Goh, Wee Sun Lee, Xavier Bresson, Thomas Laurent, Nicholas
Lim
- Abstract要約: 我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。
また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。
- 参考スコア(独自算出の注目度): 18.735056206844202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The traveling salesman problem is a fundamental combinatorial optimization
problem with strong exact algorithms. However, as problems scale up, these
exact algorithms fail to provide a solution in a reasonable time. To resolve
this, current works look at utilizing deep learning to construct reasonable
solutions. Such efforts have been very successful, but tend to be slow and
compute intensive. This paper exemplifies the integration of entropic
regularized optimal transport techniques as a layer in a deep reinforcement
learning network. We show that we can construct a model capable of learning
without supervision and inferences significantly faster than current
autoregressive approaches. We also empirically evaluate the benefits of
including optimal transport algorithms within deep learning models to enforce
assignment constraints during end-to-end training.
- Abstract(参考訳): トラベルセールスマン問題は、厳密なアルゴリズムを持つ基本的な組合せ最適化問題である。
しかし、問題が大きくなるにつれて、これらの正確なアルゴリズムは妥当な時間内にソリューションを提供しない。
これを解決するために、現在の研究は、ディープラーニングを利用して妥当なソリューションを構築することに注目している。
このような取り組みは非常に成功したが、遅くて計算集約的な傾向にある。
本稿では,深層強化学習ネットワークにおけるエントロピー正規化最適輸送手法の層としての統合を例示する。
我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。
また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。
関連論文リスト
- Learn to Solve Vehicle Routing Problems ASAP: A Neural Optimization Approach for Time-Constrained Vehicle Routing Problems with Finite Vehicle Fleet [0.0]
車両の車両サイズが有限である時間制約付静電容量VRPを解くためのNCO手法を提案する。
この手法は、柔軟性と堅牢な一般化の両方を示す、適切で費用効率のよい解を見つけることができる。
論文 参考訳(メタデータ) (2024-11-07T15:16:36Z) - Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Travel the Same Path: A Novel TSP Solving Strategy [0.0]
我々は、必要に応じて適切な選択を行う決定論的アルゴリズムを支援する模倣学習フレームワークについて検討する。
我々は、模倣学習フレームワークの下で訓練されたグラフニューラルネットワークの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-12T03:56:37Z) - Solving the capacitated vehicle routing problem with timing windows
using rollouts and MAX-SAT [4.873362301533824]
車両ルーティングはNPハード最適化問題のよく知られたクラスである。
最近の強化学習の取り組みは有望な代替手段である。
本稿では,強化学習,政策展開,満足度を組み合わせたハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-14T06:27:09Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - An Overview and Experimental Study of Learning-based Optimization
Algorithms for Vehicle Routing Problem [49.04543375851723]
車両ルーティング問題(VRP)は典型的な離散最適化問題である。
多くの研究は、VRPを解決するための学習に基づく最適化アルゴリズムについて検討している。
本稿では、最近のこの分野の進歩を概観し、関連するアプローチをエンドツーエンドアプローチとステップバイステップアプローチに分割する。
論文 参考訳(メタデータ) (2021-07-15T02:13:03Z) - Deep Reinforcement Learning for Combinatorial Optimization: Covering
Salesman Problems [4.692304496312442]
本稿では,カバーセールスマン問題 (CSP) を大まかに解くための新しい深層学習手法を提案する。
このアプローチでは、CSPの都市位置を入力として、ディープニューラルネットワークモデルがソリューションを直接出力するように設計されている。
指導なしに深層強化学習を用いて訓練される。
論文 参考訳(メタデータ) (2021-02-11T07:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。