論文の概要: BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.07580v2
- Date: Sat, 22 Mar 2025 08:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:21:41.287845
- Title: BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization
- Title(参考訳): BOPO: ベストアンコールと客観的ガイダンス最適化によるニューラルコンビネーション最適化
- Authors: Zijun Liao, Jinbiao Chen, Debing Wang, Zizhen Zhang, Jiahai Wang,
- Abstract要約: Preference Optimization for Combinatorial Optimization (POCO) は、目的値を介してソリューションの選好を利用する訓練パラダイムである。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとの統合を可能にし、最適化の原則として好みの最適化を確立する。
- 参考スコア(独自算出の注目度): 17.694852175354555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Combinatorial Optimization (NCO) has emerged as a promising approach for NP-hard problems. However, prevailing RL-based methods suffer from low sample efficiency due to sparse rewards and underused solutions. We propose Preference Optimization for Combinatorial Optimization (POCO), a training paradigm that leverages solution preferences via objective values. It introduces: (1) an efficient preference pair construction for better explore and exploit solutions, and (2) a novel loss function that adaptively scales gradients via objective differences, removing reliance on reward models or reference policies. Experiments on Job-Shop Scheduling (JSP), Traveling Salesman (TSP), and Flexible Job-Shop Scheduling (FJSP) show POCO outperforms state-of-the-art neural methods, reducing optimality gaps impressively with efficient inference. POCO is architecture-agnostic, enabling seamless integration with existing NCO models, and establishes preference optimization as a principled framework for combinatorial optimization.
- Abstract(参考訳): NPハード問題に対する有望なアプローチとして、Neural Combinatorial Optimization (NCO)が登場した。
しかし, RL法は, スパース報酬と過小評価された解によって, サンプル効率が低下する。
本稿では,目的値を介して解の選好を利用する学習パラダイムである,組合せ最適化のための選好最適化(POCO)を提案する。
1) 解の探索と活用のための効率的な選好ペア構築,(2) 目的差による勾配の適応的スケーリング,報酬モデルや参照ポリシへの依存の排除,といった新しい損失関数を導入する。
ジョブショップスケジューリング(JSP)、トラベリングセールスマン(TSP)、フレキシブルジョブショップスケジューリング(FJSP)の実験は、POCOが最先端のニューラルメソッドより優れており、効率的な推論で最適性ギャップを著しく減らしていることを示している。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとのシームレスな統合を可能にし、優先最適化を組合せ最適化の原則的なフレームワークとして確立する。
関連論文リスト
- Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。
LCCは最適化プロセス中に動的に分解戦略をスケジュールする。
最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-04-24T14:09:22Z) - Unlearning Works Better Than You Think: Local Reinforcement-Based Selection of Auxiliary Objectives [1.1743167854433303]
局所強化に基づく補助対象の選択(LRSAO)は、強化学習(RL)を用いて補助目的を選択する新しいアプローチである。
非単調ジャンプ関数のブラックボックス複雑性バージョンにおけるLRSAOの分析と評価を行った。
この結果から, $Theta(n2 / ell2 + n log(n))$の複雑さを実現し,大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-04-19T23:00:24Z) - Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Halfway Escape Optimization: A Quantum-Inspired Solution for General Optimization Problems [6.3816899727206895]
本稿ではまず,一般最適化問題に対処する量子インスパイアされたメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。
HEO機構の導入後,大規模な最適化アルゴリズムに対して,HEOの性能を総合的に評価する。
圧力容器設計および管状カラム設計におけるHEOの試験は、その実現可能性とリアルタイム応用の可能性について推測する。
論文 参考訳(メタデータ) (2024-05-05T08:43:07Z) - Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。
特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。
我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文 参考訳(メタデータ) (2024-05-03T08:00:19Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Multi-Fidelity Bayesian Optimization via Deep Neural Networks [19.699020509495437]
多くのアプリケーションでは、目的関数を複数の忠実度で評価することで、コストと精度のトレードオフを可能にする。
本稿では,DNN-MFBO(Deep Neural Network Multi-Fidelity Bayesian Optimization)を提案する。
本手法の利点は, 総合的なベンチマークデータセットと, 工学設計における実世界の応用の両方にある。
論文 参考訳(メタデータ) (2020-07-06T23:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。