論文の概要: BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.07580v2
- Date: Sat, 22 Mar 2025 08:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:22.782537
- Title: BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization
- Title(参考訳): BOPO: ベストアンコールと客観的ガイダンス最適化によるニューラルコンビネーション最適化
- Authors: Zijun Liao, Jinbiao Chen, Debing Wang, Zizhen Zhang, Jiahai Wang,
- Abstract要約: Preference Optimization for Combinatorial Optimization (POCO) は、目的値を介してソリューションの選好を利用する訓練パラダイムである。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとの統合を可能にし、最適化の原則として好みの最適化を確立する。
- 参考スコア(独自算出の注目度): 17.694852175354555
- License:
- Abstract: Neural Combinatorial Optimization (NCO) has emerged as a promising approach for NP-hard problems. However, prevailing RL-based methods suffer from low sample efficiency due to sparse rewards and underused solutions. We propose Preference Optimization for Combinatorial Optimization (POCO), a training paradigm that leverages solution preferences via objective values. It introduces: (1) an efficient preference pair construction for better explore and exploit solutions, and (2) a novel loss function that adaptively scales gradients via objective differences, removing reliance on reward models or reference policies. Experiments on Job-Shop Scheduling (JSP), Traveling Salesman (TSP), and Flexible Job-Shop Scheduling (FJSP) show POCO outperforms state-of-the-art neural methods, reducing optimality gaps impressively with efficient inference. POCO is architecture-agnostic, enabling seamless integration with existing NCO models, and establishes preference optimization as a principled framework for combinatorial optimization.
- Abstract(参考訳): NPハード問題に対する有望なアプローチとして、Neural Combinatorial Optimization (NCO)が登場した。
しかし, RL法は, スパース報酬と過小評価された解によって, サンプル効率が低下する。
本稿では,目的値を介して解の選好を利用する学習パラダイムである,組合せ最適化のための選好最適化(POCO)を提案する。
1) 解の探索と活用のための効率的な選好ペア構築,(2) 目的差による勾配の適応的スケーリング,報酬モデルや参照ポリシへの依存の排除,といった新しい損失関数を導入する。
ジョブショップスケジューリング(JSP)、トラベリングセールスマン(TSP)、フレキシブルジョブショップスケジューリング(FJSP)の実験は、POCOが最先端のニューラルメソッドより優れており、効率的な推論で最適性ギャップを著しく減らしていることを示している。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとのシームレスな統合を可能にし、優先最適化を組合せ最適化の原則的なフレームワークとして確立する。
関連論文リスト
- HoP: Homeomorphic Polar Learning for Hard Constrained Optimization [3.8166443770130822]
制約付き最適化は、非常に効率的な合成訓練アプローチを必要とする。
データ駆動学習法として、L2Oはニューラルネットワークを利用して近似解を効率的に生成する。
HoPは既存のL2O法よりも最適に近い解を得る。
すべての場合、HoPは既存のL2O法よりも最適に近い解を得る。
論文 参考訳(メタデータ) (2025-02-01T03:59:15Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。
特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。
我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-03T08:00:19Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Learning for Robust Combinatorial Optimization: Algorithm and
Application [26.990988571097827]
最適化学習(L2O)は、ニューラルネットワークの強い予測力を活用することにより、最適化問題を解決するための有望なアプローチとして登場した。
本稿では,不確実な状況下で頑健な解を迅速に出力するLRCOという新しい学習ベース最適化を提案する。
その結果、LRCOは、非常に少ない複雑さで、最悪のケースコストとランタイムを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-20T07:58:50Z) - Multi-Fidelity Bayesian Optimization via Deep Neural Networks [19.699020509495437]
多くのアプリケーションでは、目的関数を複数の忠実度で評価することで、コストと精度のトレードオフを可能にする。
本稿では,DNN-MFBO(Deep Neural Network Multi-Fidelity Bayesian Optimization)を提案する。
本手法の利点は, 総合的なベンチマークデータセットと, 工学設計における実世界の応用の両方にある。
論文 参考訳(メタデータ) (2020-07-06T23:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。