論文の概要: CADO: From Imitation to Cost Minimization for Heatmap-based Solvers in Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2602.08210v1
- Date: Mon, 09 Feb 2026 02:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.030238
- Title: CADO: From Imitation to Cost Minimization for Heatmap-based Solvers in Combinatorial Optimization
- Title(参考訳): CADO:コンビネーション最適化におけるヒートマップ型解のシミュレーションからコスト最小化へ
- Authors: Hyungseok Song, Deunsol Yoon, Kanghoon Lee, Han-Seul Jeong, Soonyoung Lee, Woohyung Lim,
- Abstract要約: 熱マップに基づく解法は、組合せ最適化(CO)の有望なパラダイムとして登場した
我々は、支配的なスーパーバイザードラーニング(SL)トレーニングパラダイムが、根本的な客観的なミスマッチに悩まされていることを論じる。
本稿では,拡散復号化過程をMDPとして定式化するフレームワークであるCADOを提案し,ポスト復号化ソリューションコストを直接最適化する。
- 参考スコア(独自算出の注目度): 8.485234027066012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heatmap-based solvers have emerged as a promising paradigm for Combinatorial Optimization (CO). However, we argue that the dominant Supervised Learning (SL) training paradigm suffers from a fundamental objective mismatch: minimizing imitation loss (e.g., cross-entropy) does not guarantee solution cost minimization. We dissect this mismatch into two deficiencies: Decoder-Blindness (being oblivious to the non-differentiable decoding process) and Cost-Blindness (prioritizing structural imitation over solution quality). We empirically demonstrate that these intrinsic flaws impose a hard performance ceiling. To overcome this limitation, we propose CADO (Cost-Aware Diffusion models for Optimization), a streamlined Reinforcement Learning fine-tuning framework that formulates the diffusion denoising process as an MDP to directly optimize the post-decoded solution cost. We introduce Label-Centered Reward, which repurposes ground-truth labels as unbiased baselines rather than imitation targets, and Hybrid Fine-Tuning for parameter-efficient adaptation. CADO achieves state-of-the-art performance across diverse benchmarks, validating that objective alignment is essential for unlocking the full potential of heatmap-based solvers.
- Abstract(参考訳): ヒートマップベースの解法は、コンビニアル最適化(CO)の有望なパラダイムとして登場した。
模倣損失(例えば、クロスエントロピー)の最小化は、ソリューションコストの最小化を保証しない。
私たちは、このミスマッチをデコーダ・ブラインドネス(非微分可能デコードプロセスに不慣れである)とコスト・ブラインドネス(ソリューションの品質よりも構造的な模倣を優先する)の2つの欠陥に分類します。
これらの本質的な欠陥がハードパフォーマンスの天井となることを実証的に実証した。
この制限を克服するため、我々は、拡散復調過程をMDPとして定式化し、ポストデコードされたソリューションコストを直接最適化する、合理化強化学習ファインチューニングフレームワークであるCADO(Cost-Aware Diffusion Model for Optimization)を提案する。
提案手法は,提案手法を模倣対象ではなく,非バイアスベースラインとして活用するラベル中心リワードとパラメータ効率向上のためのハイブリッドファインタニングを提案する。
CADOは、さまざまなベンチマークで最先端のパフォーマンスを実現し、熱マップベースの解決器の潜在能力を最大限に活用するためには、客観的アライメントが不可欠であることを検証している。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Efficient Utility-Preserving Machine Unlearning with Implicit Gradient Surgery [30.346382763036598]
マシン・アンラーニング(MU)は、事前訓練されたモデルからセンシティブまたは有害なメモリを効率的に除去することを目的としている。
鍵となる課題は、未学習の有効性とユーティリティの保存との間の潜在的なトレードオフをバランスさせることである。
本稿では,1つのバックプロパゲーションのみによる制約付き最適化問題の解を近似する暗黙的勾配手術法を提案する。
論文 参考訳(メタデータ) (2025-10-25T02:49:26Z) - Optimization Modeling via Semantic Anchored Alignment [30.047608671041104]
SAC-Optは,問題セマンティクスにおいて,解答フィードバックではなく最適化モデルに基づく後方誘導補正フレームワークである。
各ステップで、SAC-Optは元のセマンティックアンカーと生成されたコードから再構成されたアンカーを調整し、ミスマッチしたコンポーネントのみを選択的に修正する。
7つの公開データセットに関する実証的な結果は、SAC-Optが平均モデリング精度を7.8%改善し、ComplexLPデータセットで最大21.9%向上したことを示している。
論文 参考訳(メタデータ) (2025-09-28T12:25:31Z) - Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [9.788112471288057]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
凸プログラミング問題に対する最適パラメトリック解を特徴付ける。
必要かつ十分な条件を導出することにより、両スキームがグローバルな最適解を保証できることが示される。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Conflict-Averse Gradient Optimization of Ensembles for Effective Offline
Model-Based Optimization [0.0]
我々は、多重勾配降下アルゴリズム(MGDA)と競合逆勾配降下アルゴリズム(CAGrad)の2つの勾配情報を組み合わせたアルゴリズムを評価する。
以上の結果から,MGDAとCAGradは保存性と最適性の間に望ましいバランスを保ち,設計の最適性を損なうことなく,データ駆動型オフラインMBOの堅牢化に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-03-31T10:00:27Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。