Fugu-MT 論文翻訳(概要): Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization

論文の概要: Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization

arxiv url: http://arxiv.org/abs/2205.13209v1
Date: Thu, 26 May 2022 07:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 13:17:11.657577
Title: Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization
Title（参考訳）: sym-nco: 神経組合せ最適化における対称性の活用
Authors: Minsu Kim, Junyoung Park, Jinkyoo Park
Abstract要約: 深部強化学習(DRL)に基づく最適化(CO)法は,従来のCO解法に比べて有意な効果を示した。本稿では,既存のDRL-NCO法の性能向上を実現する新しいトレーニング手法であるSym-NCOを提案する。
参考スコア（独自算出の注目度）: 16.127824824652077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL)-based combinatorial optimization (CO) methods (i.e., DRL-NCO) have shown significant merit over the conventional CO solvers as DRL-NCO is capable of learning CO solvers without supervised labels attained from the verified solver. This paper presents a novel training scheme, Sym-NCO, that achieves significant performance increments to existing DRL-NCO methods. Sym-NCO is a regularizer-based training scheme that leverages universal symmetricities in various CO problems and solutions. Imposing symmetricities such as rotational and reflectional invariance can greatly improve generalization capability of DRL-NCO as symmetricities are invariant features shared by certain CO tasks. Our experimental results verify that our Sym-NCO greatly improves the performance of DRL-NCO methods in four CO tasks, including traveling salesman problem (TSP), capacitated vehicle routing problem (CVRP), prize collecting TSP (PCTSP), and orienteering problem (OP), without employing problem-specific techniques. Remarkably, Sym-NCO outperformed not only the existing DRL-NCO methods but also a competitive conventional solver, the iterative local search (ILS), in PCTSP at 240 times faster speed.
Abstract（参考訳）: 深部強化学習(DRL-NCO)に基づく組合せ最適化法(DRL-NCO)は,従来のCOソルバに対して有意な効果を示した。本稿では,既存のDRL-NCO法の性能向上を実現する新しいトレーニング手法であるSym-NCOを提案する。 Sym-NCOは、様々なCO問題や解の普遍対称性を利用する正規化器ベースのトレーニングスキームである。回転や反射不変性のような対称性を導入することで、DRL-NCOの一般化能力を大幅に向上させることができる。実験結果から,旅行セールスマン問題 (TSP), キャパシタン化車両ルーティング問題 (CVRP), 賞金収集TSP (PCTSP), オリエンテーリング問題 (OP) の4つのタスクにおけるDRL-NCO法の性能は,問題固有の手法を使わずに大幅に向上することを確認した。注目すべきは、Sym-NCO は既存の DRL-NCO 法だけでなく、PCTSP の 240 倍の高速化で競合する局所探索 (ILS) 法よりも優れていたことである。

関連論文リスト

Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees [9.589351848592928]
最近のニューラル最適化(NCO)手法は、ドメイン固有の専門知識を必要としない、有望な問題解決能力を示している。本稿では,キャパシティ制約の厳密度が異なるNCO性能を実験的に解析するために,キャパシティ制約付き車両ルーティング問題(CVRP)を例に挙げる。本研究では,制約のきつい度合いを明示的に考慮した効率的なトレーニング手法を開発し,汎用的な解法を学習するためのマルチエキスパートモジュールを提案する。
論文参考訳（メタデータ） (2025-05-30T14:21:33Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Unsupervised Training of Diffusion Models for Feasible Solution Generation in Neural Combinatorial Optimization [7.85458999849461]
我々は,拡散モデルをゼロから直接訓練する,教師なしCOフレームワークであるIC/DCを提案する。私たちは、問題固有の制約を順守しながら、ソリューションのコストを最小限に抑えるために、自己監督的な方法でモデルをトレーニングします。並列マシンスケジューリング問題(PMSP)と非対称トラベリングセールスマン問題(ATSP)における既存のNCO手法と比較して、IC/DCは最先端の性能を達成する
論文参考訳（メタデータ） (2024-10-15T06:53:30Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。 CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文参考訳（メタデータ） (2024-07-10T16:04:08Z)
Neural Combinatorial Optimization Algorithms for Solving Vehicle Routing Problems: A Comprehensive Survey with Perspectives [14.47130974868925]
この調査は、VRPのためのNCOソルバの包括的分類を提供することを目的としている。我々は,すべてのNCOソルバを,構成の学習,改善の学習,予測の学習,予測の多元性解決の学習の4つのカテゴリに分けた。我々は,SOTAソルバの欠点として,一般化の低さ,大規模VRPの解決能力の低下,NCOソルバと従来のOperations Researchアルゴリズムとの比較が困難である点を挙げる。
論文参考訳（メタデータ） (2024-06-01T12:18:39Z)
Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文参考訳（メタデータ） (2024-05-03T08:00:19Z)
RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
深部強化学習(RL)は、最適化(CO)問題を解く上で大きな利点を示している。 RL4COは,23の最先端メソッドと20以上のCO問題を含む,詳細なライブラリカバレッジを備えた統一ベンチマークである。効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。
論文参考訳（メタデータ） (2023-06-29T16:57:22Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
How Good Is Neural Combinatorial Optimization? A Systematic Evaluation on the Traveling Salesman Problem [31.451338706630583]
この研究は、ニューラル最適化ソルバと代替ソルバの総合的な比較研究を示す。以上の結果から, NCO アプローチで学習した解法は, 従来の解法には及ばないことが明らかとなった。
論文参考訳（メタデータ） (2022-09-22T10:50:36Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。