論文の概要: Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2205.13209v1
- Date: Thu, 26 May 2022 07:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:17:11.657577
- Title: Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization
- Title(参考訳): sym-nco: 神経組合せ最適化における対称性の活用
- Authors: Minsu Kim, Junyoung Park, Jinkyoo Park
- Abstract要約: 深部強化学習(DRL)に基づく最適化(CO)法は,従来のCO解法に比べて有意な効果を示した。
本稿では,既存のDRL-NCO法の性能向上を実現する新しいトレーニング手法であるSym-NCOを提案する。
- 参考スコア(独自算出の注目度): 16.127824824652077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL)-based combinatorial optimization (CO)
methods (i.e., DRL-NCO) have shown significant merit over the conventional CO
solvers as DRL-NCO is capable of learning CO solvers without supervised labels
attained from the verified solver. This paper presents a novel training scheme,
Sym-NCO, that achieves significant performance increments to existing DRL-NCO
methods. Sym-NCO is a regularizer-based training scheme that leverages
universal symmetricities in various CO problems and solutions. Imposing
symmetricities such as rotational and reflectional invariance can greatly
improve generalization capability of DRL-NCO as symmetricities are invariant
features shared by certain CO tasks. Our experimental results verify that our
Sym-NCO greatly improves the performance of DRL-NCO methods in four CO tasks,
including traveling salesman problem (TSP), capacitated vehicle routing problem
(CVRP), prize collecting TSP (PCTSP), and orienteering problem (OP), without
employing problem-specific techniques. Remarkably, Sym-NCO outperformed not
only the existing DRL-NCO methods but also a competitive conventional solver,
the iterative local search (ILS), in PCTSP at 240 times faster speed.
- Abstract(参考訳): 深部強化学習(DRL-NCO)に基づく組合せ最適化法(DRL-NCO)は,従来のCOソルバに対して有意な効果を示した。
本稿では,既存のDRL-NCO法の性能向上を実現する新しいトレーニング手法であるSym-NCOを提案する。
Sym-NCOは、様々なCO問題や解の普遍対称性を利用する正規化器ベースのトレーニングスキームである。
回転や反射不変性のような対称性を導入することで、DRL-NCOの一般化能力を大幅に向上させることができる。
実験結果から,旅行セールスマン問題 (TSP), キャパシタン化車両ルーティング問題 (CVRP), 賞金収集TSP (PCTSP), オリエンテーリング問題 (OP) の4つのタスクにおけるDRL-NCO法の性能は,問題固有の手法を使わずに大幅に向上することを確認した。
注目すべきは、Sym-NCO は既存の DRL-NCO 法だけでなく、PCTSP の 240 倍の高速化で競合する局所探索 (ILS) 法よりも優れていたことである。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Neural Combinatorial Optimization Algorithms for Solving Vehicle Routing Problems: A Comprehensive Survey with Perspectives [14.47130974868925]
この調査は、VRPのためのNCOソルバの包括的分類を提供することを目的としている。
我々は,すべてのNCOソルバを,構成の学習,改善の学習,予測の学習,予測の多元性解決の学習の4つのカテゴリに分けた。
我々は,SOTAソルバの欠点として,一般化の低さ,大規模VRPの解決能力の低下,NCOソルバと従来のOperations Researchアルゴリズムとの比較が困難である点を挙げる。
論文 参考訳(メタデータ) (2024-06-01T12:18:39Z) - Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。
特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。
我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-03T08:00:19Z) - RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
深部強化学習(RL)は、最適化(CO)問題を解く上で大きな利点を示している。
RL4COは,23の最先端メソッドと20以上のCO問題を含む,詳細なライブラリカバレッジを備えた統一ベンチマークである。
効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - How Good Is Neural Combinatorial Optimization? A Systematic Evaluation
on the Traveling Salesman Problem [31.451338706630583]
この研究は、ニューラル最適化ソルバと代替ソルバの総合的な比較研究を示す。
以上の結果から, NCO アプローチで学習した解法は, 従来の解法には及ばないことが明らかとなった。
論文 参考訳(メタデータ) (2022-09-22T10:50:36Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。