論文の概要: UCPO: A Universal Constrained Combinatorial Optimization Method via Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.10148v1
- Date: Fri, 14 Nov 2025 01:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.71578
- Title: UCPO: A Universal Constrained Combinatorial Optimization Method via Preference Optimization
- Title(参考訳): UCPO: 優先最適化によるユニバーサル制約付き組合せ最適化手法
- Authors: Zhanhong Fang, Debing Wang, Jinbiao Chen, Jiahai Wang, Zizhen Zhang,
- Abstract要約: Universal Constrained Preference Optimization (UCPO)は、既存のニューラルソルバに好み学習をシームレスに統合する新しいプラグイン・アンド・プレイフレームワークである。
UCPOは制約満足度を直接嗜好に基づく目的に組み込む。
当初のトレーニング予算の1%に過ぎず、例外的なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.001544937354577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural solvers have demonstrated remarkable success in combinatorial optimization, often surpassing traditional heuristics in speed, solution quality, and generalization. However, their efficacy deteriorates significantly when confronted with complex constraints that cannot be effectively managed through simple masking mechanisms. To address this limitation, we introduce Universal Constrained Preference Optimization (UCPO), a novel plug-and-play framework that seamlessly integrates preference learning into existing neural solvers via a specially designed loss function, without requiring architectural modifications. UCPO embeds constraint satisfaction directly into a preference-based objective, eliminating the need for meticulous hyperparameter tuning. Leveraging a lightweight warm-start fine-tuning protocol, UCPO enables pre-trained models to consistently produce near-optimal, feasible solutions on challenging constraint-laden tasks, achieving exceptional performance with as little as 1\% of the original training budget.
- Abstract(参考訳): ニューラルソルバは組合せ最適化において顕著な成功を示しており、しばしば速度、解の質、一般化の伝統的なヒューリスティックを超えている。
しかし, 単純なマスキング機構では効果的に管理できない複雑な制約に直面した場合には, 有効性が著しく低下する。
この制限に対処するために、UCPO(Universal Constrained Preference Optimization)という新しいプラグイン・アンド・プレイフレームワークを導入する。
UCPOは制約満足度を直接嗜好に基づく目的に組み込んでおり、微妙なハイパーパラメータチューニングの必要性を排除している。
軽量なウォームスタート微調整プロトコルを活用することで、UCPOはトレーニング済みのモデルに対して、制約付きタスクに対して、ほぼ最適で実現可能なソリューションを一貫して生成することを可能にする。
関連論文リスト
- A Markovian Framing of WaveFunctionCollapse for Procedurally Generating Aesthetically Complex Environments [5.114029940159893]
手続き的コンテンツ生成は、設計者が指定した目的と、下層のタイルセットによって暗黙的に課される隣接制約の両方を満たす必要があることが多い。
マルコフ決定過程(MDP)としてWaveFunctionCol(WFC)を再構成する
WFC-MDPの最適化と比較して,タスクの複雑性が増大するにつれて,共同最適化は困難である。
論文 参考訳(メタデータ) (2025-09-12T01:51:01Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization [17.694852175354555]
目的値を介して解の選好を利用する訓練パラダイムであるBOPO(Best-anchored and Objective-Guided Preference Optimization)を提案する。
ジョブショップ問題(JSP)、トラベルセールスマン問題(TSP)、フレキシブルジョブショップスケジューリング問題(FJSP)の実験は、BOPOが最先端のニューラルメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-03-10T17:45:30Z) - SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics [13.129654942805846]
モデル予測制御(MP)に基づく軌道計画が広く使われており、制御バリア(CBF)はその制約を改善することができる。
本稿では,CBF-MPC軌道計画のための自己教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T09:38:52Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。