論文の概要: Adversarial Instance Generation and Robust Training for Neural Combinatorial Optimization with Multiple Objectives
- arxiv url: http://arxiv.org/abs/2601.01665v1
- Date: Sun, 04 Jan 2026 20:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.630131
- Title: Adversarial Instance Generation and Robust Training for Neural Combinatorial Optimization with Multiple Objectives
- Title(参考訳): 複数目的物を用いたニューラルコンビネーション最適化のための逆インスタンス生成とロバストトレーニング
- Authors: Wei Liu, Yaoxin Wu, Yingqian Zhang, Thomas Bäck, Yingjie Fan,
- Abstract要約: 我々は,MOCOPのための優先条件付きDRLソルバのための統一ロバストネス指向フレームワークを提案する。
我々は、解決者の弱点を露呈するハードインスタンスを生成するために、嗜好に基づく敵攻撃を開発する。
また,困難に配慮した選好選択を敵の訓練に組み込む防衛戦略も導入する。
- 参考スコア(独自算出の注目度): 20.700279316676802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has shown great promise in addressing multi-objective combinatorial optimization problems (MOCOPs). Nevertheless, the robustness of these learning-based solvers has remained insufficiently explored, especially across diverse and complex problem distributions. In this paper, we propose a unified robustness-oriented framework for preference-conditioned DRL solvers for MOCOPs. Within this framework, we develop a preference-based adversarial attack to generate hard instances that expose solver weaknesses, and quantify the attack impact by the resulting degradation on Pareto-front quality. We further introduce a defense strategy that integrates hardness-aware preference selection into adversarial training to reduce overfitting to restricted preference regions and improve out-of-distribution performance. The experimental results on multi-objective traveling salesman problem (MOTSP), multi-objective capacitated vehicle routing problem (MOCVRP), and multi-objective knapsack problem (MOKP) verify that our attack method successfully learns hard instances for different solvers. Furthermore, our defense method significantly strengthens the robustness and generalizability of neural solvers, delivering superior performance on hard or out-of-distribution instances.
- Abstract(参考訳): 深部強化学習(DRL)は,多目的組合せ最適化問題(MOCOP)に対処する上で大きな可能性を示している。
しかしながら、これらの学習に基づく解法の堅牢性は、特に多種多様な複雑な問題分布において、十分に調査されていない。
本稿では,MOCOPのための優先条件DRLソルバのための統一ロバストネス指向フレームワークを提案する。
本フレームワークでは,解決の弱点を明らかにするハードインスタンスを生成し,その結果のPareto-frontの品質低下による攻撃影響を定量化する。
さらに,制約された嗜好領域への過度な適合を減らし,配当性能を向上させるために,強硬性を考慮した選好選択を敵の訓練に統合する防衛戦略を導入する。
マルチオブジェクト走行セールスマン問題 (MOTSP) , 多目的キャパシタンドカールーティング問題 (MOCVRP) および多目的クナップサック問題 (MOKP) に関する実験結果から, 本手法が異なる解法に対するハードインスタンスの学習に有効であることが確認された。
さらに,ニューラルソルバの堅牢性と一般化性を大幅に向上させ,ハード・アウト・オブ・ディストリビューション・インスタンス上での優れた性能を実現する。
関連論文リスト
- Benchmarking MOEAs for solving continuous multi-objective RL problems [3.8936716676293917]
多目的強化学習(MORL)は、複数の、しばしば矛盾する報酬を同時に最適化する課題に対処する。
本稿では,複雑なMORL問題の解法における多目的進化アルゴリズムの適用性と限界について検討する。
論文 参考訳(メタデータ) (2025-05-19T20:54:20Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Efficient Meta Neural Heuristic for Multi-Objective Combinatorial
Optimization [35.09656455088854]
本稿では,多目的最適化問題を解くために,効率的なメタニューラルベクトル(EMNH)を提案する。
EMNHは、ソリューションの品質と学習効率の点で最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2023-10-22T08:59:02Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - On the Convergence and Robustness of Adversarial Training [134.25999006326916]
Project Gradient Decent (PGD) によるアドリアリトレーニングが最も効果的である。
生成した逆数例の収束性を向上させるためのテクトダイナミックトレーニング戦略を提案する。
その結果,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2021-12-15T17:54:08Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。