論文の概要: UCPO: A Universal Constrained Combinatorial Optimization Method via Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.10148v1
- Date: Fri, 14 Nov 2025 01:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.71578
- Title: UCPO: A Universal Constrained Combinatorial Optimization Method via Preference Optimization
- Title(参考訳): UCPO: 優先最適化によるユニバーサル制約付き組合せ最適化手法
- Authors: Zhanhong Fang, Debing Wang, Jinbiao Chen, Jiahai Wang, Zizhen Zhang,
- Abstract要約: Universal Constrained Preference Optimization (UCPO)は、既存のニューラルソルバに好み学習をシームレスに統合する新しいプラグイン・アンド・プレイフレームワークである。
UCPOは制約満足度を直接嗜好に基づく目的に組み込む。
当初のトレーニング予算の1%に過ぎず、例外的なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.001544937354577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural solvers have demonstrated remarkable success in combinatorial optimization, often surpassing traditional heuristics in speed, solution quality, and generalization. However, their efficacy deteriorates significantly when confronted with complex constraints that cannot be effectively managed through simple masking mechanisms. To address this limitation, we introduce Universal Constrained Preference Optimization (UCPO), a novel plug-and-play framework that seamlessly integrates preference learning into existing neural solvers via a specially designed loss function, without requiring architectural modifications. UCPO embeds constraint satisfaction directly into a preference-based objective, eliminating the need for meticulous hyperparameter tuning. Leveraging a lightweight warm-start fine-tuning protocol, UCPO enables pre-trained models to consistently produce near-optimal, feasible solutions on challenging constraint-laden tasks, achieving exceptional performance with as little as 1\% of the original training budget.
- Abstract(参考訳): ニューラルソルバは組合せ最適化において顕著な成功を示しており、しばしば速度、解の質、一般化の伝統的なヒューリスティックを超えている。
しかし, 単純なマスキング機構では効果的に管理できない複雑な制約に直面した場合には, 有効性が著しく低下する。
この制限に対処するために、UCPO(Universal Constrained Preference Optimization)という新しいプラグイン・アンド・プレイフレームワークを導入する。
UCPOは制約満足度を直接嗜好に基づく目的に組み込んでおり、微妙なハイパーパラメータチューニングの必要性を排除している。
軽量なウォームスタート微調整プロトコルを活用することで、UCPOはトレーニング済みのモデルに対して、制約付きタスクに対して、ほぼ最適で実現可能なソリューションを一貫して生成することを可能にする。
関連論文リスト
- Towards Efficient Constraint Handling in Neural Solvers for Routing Problems [53.35866378109893]
ニューラル・ルーティング・ソルバのための汎用的で効率的な制約処理フレームワークであるConstruct-and-Refineを提案する。
CaRは古典的およびニューラル・オブ・ザ・テク的解法と比較して、実現可能性、ソリューション品質、効率性が優れている。
論文 参考訳(メタデータ) (2026-02-17T21:06:23Z) - Optimizing Optimizers for Fast Gradient-Based Learning [53.81268610971847]
勾配学習における設計の自動化に関する理論的基礎を築いた。
勾配損失信号をパラメータ運動に変換する関数として扱うことにより、この問題は凸最適化問題の族に還元される。
論文 参考訳(メタデータ) (2025-12-06T09:50:41Z) - A Markovian Framing of WaveFunctionCollapse for Procedurally Generating Aesthetically Complex Environments [5.114029940159893]
手続き的コンテンツ生成は、設計者が指定した目的と、下層のタイルセットによって暗黙的に課される隣接制約の両方を満たす必要があることが多い。
マルコフ決定過程(MDP)としてWaveFunctionCol(WFC)を再構成する
WFC-MDPの最適化と比較して,タスクの複雑性が増大するにつれて,共同最適化は困難である。
論文 参考訳(メタデータ) (2025-09-12T01:51:01Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization [17.694852175354555]
目的値を介して解の選好を利用する訓練パラダイムであるBOPO(Best-anchored and Objective-Guided Preference Optimization)を提案する。
ジョブショップ問題(JSP)、トラベルセールスマン問題(TSP)、フレキシブルジョブショップスケジューリング問題(FJSP)の実験は、BOPOが最先端のニューラルメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-03-10T17:45:30Z) - SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics [13.129654942805846]
モデル予測制御(MP)に基づく軌道計画が広く使われており、制御バリア(CBF)はその制約を改善することができる。
本稿では,CBF-MPC軌道計画のための自己教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T09:38:52Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Diffusing the Optimal Topology: A Generative Optimization Approach [6.375982344506753]
トポロジ最適化は、システム性能を最大化しながら制約セットを満たす最良の設計を見つけようとしている。
SIMPのような従来の反復最適化手法は計算コストがかかり、ローカルのミニマに留まることがある。
本研究では、SIMPのような古典最適化を深い生成モデルによって生成されるトポロジの精製機構として統合する生成最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-17T03:47:10Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。
しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文 参考訳(メタデータ) (2022-02-21T17:04:51Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。