論文の概要: ASP: Learn a Universal Neural Solver!
- arxiv url: http://arxiv.org/abs/2303.00466v1
- Date: Wed, 1 Mar 2023 12:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:47:16.485102
- Title: ASP: Learn a Universal Neural Solver!
- Title(参考訳): asp: ユニバーサルニューラルネットワークソルバを学ぼう!
- Authors: Chenguang Wang, Zhouliang Yu, Stephen McAleer, Tianshu Yu, Yaodong
Yang
- Abstract要約: これらの一般化問題に対処するため、Oracleは ASP: Adaptive Staircase Policy Space Response を提案します。
ASPは2つのコンポーネントで構成されている。
この結果から、ASPは、未知の分布や様々なスケールに適応し、優れたパフォーマンスを実現するために、ニューラルネットワークを探索し、適応するのに役立つことが示唆された。
- 参考スコア(独自算出の注目度): 16.98189196303338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying machine learning to combinatorial optimization problems has the
potential to improve both efficiency and accuracy. However, existing
learning-based solvers often struggle with generalization when faced with
changes in problem distributions and scales. In this paper, we propose a new
approach called ASP: Adaptive Staircase Policy Space Response Oracle to address
these generalization issues and learn a universal neural solver. ASP consists
of two components: Distributional Exploration, which enhances the solver's
ability to handle unknown distributions using Policy Space Response Oracles,
and Persistent Scale Adaption, which improves scalability through curriculum
learning. We have tested ASP on several challenging COPs, including the
traveling salesman problem, the vehicle routing problem, and the prize
collecting TSP, as well as the real-world instances from TSPLib and CVRPLib.
Our results show that even with the same model size and weak training signal,
ASP can help neural solvers explore and adapt to unseen distributions and
varying scales, achieving superior performance. In particular, compared with
the same neural solvers under a standard training pipeline, ASP produces a
remarkable decrease in terms of the optimality gap with 90.9% and 47.43% on
generated instances and real-world instances for TSP, and a decrease of 19% and
45.57% for CVRP.
- Abstract(参考訳): 組合せ最適化問題に機械学習を適用することで、効率と精度が向上する可能性がある。
しかし、既存の学習ベースの解法は、問題分布やスケールの変化に直面した場合、一般化に苦慮することが多い。
本稿では, ASP: Adaptive Staircase Policy Space Response Oracleという新しいアプローチを提案し, これらの一般化問題に対処し, 普遍的なニューラルソルバを学習する。
aspは2つのコンポーネントで構成されている: 分散探索: ポリシー空間応答オラクルを使って未知のディストリビューションを扱う能力を強化する、分散探索、そして、カリキュラム学習によるスケーラビリティを向上させる永続的スケール適応。
我々は、旅行セールスマン問題、車両ルーティング問題、賞品収集tsp、およびtsplibやcvrplibの現実世界のインスタンスを含むいくつかの挑戦的な警官に対してaspをテストした。
結果から,同じモデルサイズと弱いトレーニング信号であっても,ASPはニューラルソルバが未知の分布やさまざまなスケールを探索し,適応するのに役立ち,優れた性能を達成できることが示唆された。
特に、標準的なトレーニングパイプラインにおける同じニューラルネットワークと比較して、ASPは、生成されたTSPのインスタンスと実世界のインスタンスで90.9%と47.43%の最適性ギャップ、CVRPでは19%と45.57%という顕著な減少を生み出す。
関連論文リスト
- Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。
特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。
我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-03T08:00:19Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Pointerformer: Deep Reinforced Multi-Pointer Transformer for the
Traveling Salesman Problem [67.32731657297377]
トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生した古典的な経路最適化問題である。
近年, 深層強化学習は高い推論効率のため, TSP の解法として採用されている。
本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。
論文 参考訳(メタデータ) (2023-04-19T03:48:32Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - A Game-Theoretic Approach for Improving Generalization Ability of TSP
Solvers [16.98434288039677]
トレーニング可能なEmphrとemphData Generatorの間に2つのプレイヤーゼロサムフレームワークを導入する。
本稿では,トラベリングセールスマン問題におけるタスクにおいて,最も一般化可能なパフォーマンスを実現するためのフレームワークについて述べる。
論文 参考訳(メタデータ) (2021-10-28T13:35:22Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。