論文の概要: Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2602.01090v1
- Date: Sun, 01 Feb 2026 08:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.590649
- Title: Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization
- Title(参考訳): ソフトジェネレーションとハード制約:LLMに基づく組合せ最適化の実現可能性
- Authors: Yang Liu, Chuan Zhou, Yancheng Chen, Shuai Zhang, Xixun Lin, Xiaoqing Wang,
- Abstract要約: 3つの重要なイノベーションを通じて100%実現可能なフレームワークであるFALCONを紹介します。
FALCONは、最先端のニューラルおよびLLMベースの解決器のソリューション品質をマッチングまたは超過しながら、完全な実現性を達成する。
- 参考スコア(独自算出の注目度): 14.17648636921649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as promising general-purpose solvers for combinatorial optimization (CO), yet they fundamentally lack mechanisms to guarantee solution feasibility which is critical for real-world deployment. In this work, we introduce FALCON, a framework that ensures 100\% feasibility through three key innovations: (i) \emph{grammar-constrained decoding} enforces syntactic validity, (ii) a \emph{feasibility repair layer} corrects semantic constraint violations, and (iii) \emph{adaptive Best-of-$N$ sampling} allocates inference compute efficiently. To train the underlying LLM, we introduce the Best-anchored Objective-guided Preference Optimization (BOPO) in LLM training, which weights preference pairs by their objective gap, providing dense supervision without human labels. Theoretically, we prove convergence for BOPO and provide bounds on repair-induced quality loss. Empirically, across seven NP-hard CO problems, FALCON achieves perfect feasibility while matching or exceeding the solution quality of state-of-the-art neural and LLM-based solvers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、組合せ最適化(CO)のための有望な汎用的な解法として登場したが、現実のデプロイメントにおいて重要なソリューションの実現性を保証するメカニズムが根本的に欠如している。
本研究では,3つの重要なイノベーションを通じて100%の実現性を保証するフレームワークであるFALCONを紹介する。
i) \emph{grammar-constrained decoding}は、構文的妥当性を強制する。
(ii) 意味的制約違反を是正する \emph{feasibility repair layer}
(iii) \emph{adaptive Best-of-N$ sample} は推論計算を効率的に割り当てる。
基礎となるLLMをトレーニングするために,LLMトレーニングにおけるBOPO(Best-anchored Objective-Guided Preference Optimization)を導入する。
理論的には,BOPOの収束性を証明し,修復に伴う品質損失の限界を与える。
実験的に、7つのNPハードCO問題に対して、FALCONは、最先端のニューラルおよびLLMベースの解決器のソリューション品質を一致または超過しながら、完全な実現性を達成する。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Large Language Models as End-to-end Combinatorial Optimization Solvers [45.32050615257007]
物流や製造などの意思決定シナリオの中心となる組合せ最適化(CO)問題は、伝統的に問題固有のアルゴリズムを使用して解決される。
既存のアプローチは、コード生成やソルバ呼び出しといった中間ステップに依存しており、その汎用性とアクセシビリティを制限している。
本稿では,大規模言語モデル(LLM)を,自然言語問題記述をソリューションに直接マッピングすることで,エンドツーエンドのCOソルバとして機能させる,新たなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-21T01:30:30Z) - Learn to Relax with Large Language Models: Solving Nonlinear Combinatorial Optimization Problems via Bidirectional Coevolution [10.160534429260228]
我々は、コードでリラックスする学習を通じてNCOPの解像度に革命をもたらす、最初のエンドツーエンドの textbf Automated textbfConst textbfOptimization (AutoCO) 手法を導入する。
論文 参考訳(メタデータ) (2025-09-16T03:59:51Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow [20.078717680640214]
SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムが成長するにつれてますます複雑になる。
本稿では,大規模SCOPF問題に対する準最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFについて紹介する。
論文 参考訳(メタデータ) (2023-11-29T20:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。