論文の概要: Leader Reward for POMO-Based Neural Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2405.13947v1
- Date: Wed, 22 May 2024 19:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:23:46.681299
- Title: Leader Reward for POMO-Based Neural Combinatorial Optimization
- Title(参考訳): POMOに基づくニューラルコンビネーション最適化のためのリーダリワード
- Authors: Chaoyang Wang, Pengzhi Cheng, Jingze Li, Weiwei Sun,
- Abstract要約: 本稿では、最適解を生成するモデルの能力を高めるために、Lead Rewardを提案する。
我々は、Lead Rewardがモデルによって生成される最適なソリューションの品質を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 8.301694061287565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks based on reinforcement learning (RL) for solving combinatorial optimization (CO) problems are developing rapidly and have shown a tendency to approach or even outperform traditional solvers. However, existing methods overlook an important distinction: CO problems differ from other traditional problems in that they focus solely on the optimal solution provided by the model within a specific length of time, rather than considering the overall quality of all solutions generated by the model. In this paper, we propose Leader Reward and apply it during two different training phases of the Policy Optimization with Multiple Optima (POMO) model to enhance the model's ability to generate optimal solutions. This approach is applicable to a variety of CO problems, such as the Traveling Salesman Problem (TSP), the Capacitated Vehicle Routing Problem (CVRP), and the Flexible Flow Shop Problem (FFSP), but also works well with other POMO-based models or inference phase's strategies. We demonstrate that Leader Reward greatly improves the quality of the optimal solutions generated by the model. Specifically, we reduce the POMO's gap to the optimum by more than 100 times on TSP100 with almost no additional computational overhead.
- Abstract(参考訳): 組合せ最適化(CO)問題を解くための強化学習(RL)に基づくディープニューラルネットワークは急速に発展しており、従来の解法に近づいたり、性能を上回ったりする傾向がある。
CO問題は、モデルが生成するすべてのソリューションの全体的な品質を考慮するのではなく、特定の時間内にモデルが提供する最適解のみに焦点を合わせるという点において、他の伝統的な問題とは異なる。
本稿では,複数のオプティマス(POMO)モデルを用いた政策最適化モデルの2つの異なる学習段階において,モデルが最適解を生成する能力を高めるために,リーダ・リワードを提案し,適用する。
このアプローチは、トラベルセールスマン問題(TSP)、キャパシタレートカールーティング問題(CVRP)、フレキシブルフローショップ問題(FFSP)など、様々なCO問題に適用できるが、他のPOMOモデルや推論フェーズの戦略ともうまく機能する。
我々は、Lead Rewardがモデルによって生成される最適なソリューションの品質を大幅に改善することを示した。
具体的には、計算オーバーヘッドがほとんどないTSP100において、POMOの最適値とのギャップを100倍以上削減する。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。
特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。
我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-03T08:00:19Z) - Neural Combinatorial Optimization with Heavy Decoder: Toward Large Scale
Generalization [15.189182646851865]
本稿では、この重要な問題に対処する強力な一般化能力を持つ新しい軽量重復号器(LEHD)モデルを提案する。
提案するLEHDモデルに対して,データ効率のトレーニング手法とフレキシブルな解法機構を開発する。
提案したLEHDモデルは,建設的NCOの最先端性能を大幅に向上させることができることを確認した。
論文 参考訳(メタデータ) (2023-10-12T02:18:50Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - DIMES: A Differentiable Meta Solver for Combinatorial Optimization
Problems [41.57773395100222]
深部強化学習(DRL)モデルはNP-hard Combinatorial Optimization問題を解決する上で有望な結果を示している。
本稿では,DIMESという新しいアプローチを提案することによって,大規模最適化におけるスケーラビリティの課題に対処する。
コストのかかる自己回帰的復号法や離散解の反復的洗練に苦しむ従来のDRL法とは異なり、DIMESは候補解の基底分布をパラメータ化するためのコンパクトな連続空間を導入する。
DIMESは、トラベリングセールスマン問題や最大独立セット問題のための大規模なベンチマークデータセットにおいて、最近のDRLベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-08T23:24:37Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - POMO: Policy Optimization with Multiple Optima for Reinforcement
Learning [8.819672165548477]
本稿では,マルチプルオプティマス(POMO)を用いたポリシー最適化について紹介する。
POMOは、幅広いCO問題に適用可能であり、CO溶液の表現における対称性を利用するように設計されている。
我々は,旅行セールスマン(TSP),キャパシタンドカールーティング(CVRP),0-1knapsack(KP)の3つの一般的なNPハード問題を解くことで,POMOの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-30T00:57:50Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。