論文の概要: Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers
- arxiv url: http://arxiv.org/abs/2110.02843v1
- Date: Wed, 6 Oct 2021 15:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 21:27:26.226195
- Title: Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers
- Title(参考訳): 深部強化学習に基づくTSP解法の一般化
- Authors: Wenbin Ouyang, Yisen Wang, Shaochen Han, Zhejian Jin and Paul Weng
- Abstract要約: 本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
- 参考スコア(独自算出の注目度): 19.29028564568974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work applying deep reinforcement learning (DRL) to solve traveling
salesman problems (TSP) has shown that DRL-based solvers can be fast and
competitive with TSP heuristics for small instances, but do not generalize well
to larger instances. In this work, we propose a novel approach named MAGIC that
includes a deep learning architecture and a DRL training method. Our
architecture, which integrates a multilayer perceptron, a graph neural network,
and an attention model, defines a stochastic policy that sequentially generates
a TSP solution. Our training method includes several innovations: (1) we
interleave DRL policy gradient updates with local search (using a new local
search technique), (2) we use a novel simple baseline, and (3) we apply
curriculum learning. Finally, we empirically demonstrate that MAGIC is superior
to other DRL-based methods on random TSP instances, both in terms of
performance and generalizability. Moreover, our method compares favorably
against TSP heuristics and other state-of-the-art approach in terms of
performance and computational time.
- Abstract(参考訳): 近年,旅行セールスマン問題 (TSP) の解法に深部強化学習 (DRL) を適用した研究により, DRLをベースとした解法は, 小規模の場合のTSPヒューリスティックスと高速かつ競合するが, 大規模の場合の一般化は困難であることが示されている。
本研究では,ディープラーニングアーキテクチャとDRL学習手法を含むMAGICという新しい手法を提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,TSPソリューションを逐次生成する確率的ポリシを定義している。
学習方法は,(1)drlポリシーのグラデーション更新をローカルサーチ(新しいローカルサーチ手法を用いて)にインターリーブする,(2)新しい単純なベースラインを用いる,(3)カリキュラム学習を適用する,という,いくつかのイノベーションを含んでいる。
最後に、MRICは、他のDRLベースのメソッドよりも、パフォーマンスと一般化性の両方において、ランダムなTSPインスタンスの方が優れていることを実証的に示す。
さらに,本手法はTSPヒューリスティックスや他の最先端手法と比較して,性能と計算時間の観点から好意的に比較する。
関連論文リスト
- Pointerformer: Deep Reinforced Multi-Pointer Transformer for the
Traveling Salesman Problem [67.32731657297377]
トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生した古典的な経路最適化問題である。
近年, 深層強化学習は高い推論効率のため, TSP の解法として採用されている。
本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。
論文 参考訳(メタデータ) (2023-04-19T03:48:32Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Deep Reinforcement Learning Guided Improvement Heuristic for Job Shop
Scheduling [30.45126420996238]
本稿では,完全解の符号化にグラフ表現を用いる JSSP を解くための DRL 誘導型改良法を提案する。
本研究では,2つのモジュールからなるグラフニューラルネットワークに基づく表現スキームを設計し,改良プロセス中に遭遇したグラフ内の動的トポロジと異なるタイプのノードの情報を自動的に取得する。
古典的なベンチマーク実験により,本手法が学んだ改善方針は,最先端のDRL法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-11-20T10:20:13Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Generalization in Deep RL for TSP Problems via Equivariance and Local
Search [21.07325126324399]
本稿では,新しいRL学習手法を用いて学習する,シンプルなディープラーニングアーキテクチャを提案する。
我々は,関連する最先端の深部RL法に対して,ランダムかつ現実的なTSP問題に関する提案を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-07T16:20:37Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。