論文の概要: Generalization in Deep RL for TSP Problems via Equivariance and Local
Search
- arxiv url: http://arxiv.org/abs/2110.03595v1
- Date: Thu, 7 Oct 2021 16:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 20:10:39.363415
- Title: Generalization in Deep RL for TSP Problems via Equivariance and Local
Search
- Title(参考訳): 等分散と局所探索によるTSP問題に対する深部RLの一般化
- Authors: Wenbin Ouyang, Yisen Wang, Paul Weng, Shaochen Han
- Abstract要約: 本稿では,新しいRL学習手法を用いて学習する,シンプルなディープラーニングアーキテクチャを提案する。
我々は,関連する最先端の深部RL法に対して,ランダムかつ現実的なTSP問題に関する提案を実証的に評価した。
- 参考スコア(独自算出の注目度): 21.07325126324399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) has proved to be a competitive heuristic for
solving small-sized instances of traveling salesman problems (TSP), but its
performance on larger-sized instances is insufficient. Since training on large
instances is impractical, we design a novel deep RL approach with a focus on
generalizability. Our proposition consisting of a simple deep learning
architecture that learns with novel RL training techniques, exploits two main
ideas. First, we exploit equivariance to facilitate training. Second, we
interleave efficient local search heuristics with the usual RL training to
smooth the value landscape. In order to validate the whole approach, we
empirically evaluate our proposition on random and realistic TSP problems
against relevant state-of-the-art deep RL methods. Moreover, we present an
ablation study to understand the contribution of each of its component
- Abstract(参考訳): 深層強化学習(RL)は,小規模の旅行セールスマン問題(TSP)を解く上では,競争力のあるヒューリスティックであることが証明されている。
大規模インスタンスでのトレーニングは現実的ではないため、一般化性を重視した新しい深層RLアプローチを設計する。
我々の提案は、新しいRLトレーニング技術で学習するシンプルなディープラーニングアーキテクチャから成り、2つの主要なアイデアを活用する。
まず、トレーニングを容易にするために等価性を利用する。
第2に,効率的な局所探索ヒューリスティックスを通常のRLトレーニングとインターリーブして,価値景観の円滑化を図る。
提案手法の全体を検証するため,本手法の最先端RL法に対して,ランダムかつ現実的なTSP問題に対する提案を実証的に評価した。
さらに,各成分の寄与を理解するためのアブレーション研究について述べる。
関連論文リスト
- A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。