論文の概要: CP-Bench: Evaluating Large Language Models for Constraint Modelling
- arxiv url: http://arxiv.org/abs/2506.06052v1
- Date: Fri, 06 Jun 2025 12:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.478693
- Title: CP-Bench: Evaluating Large Language Models for Constraint Modelling
- Title(参考訳): CP-Bench:制約モデリングのための大規模言語モデルの評価
- Authors: Kostis Michailidis, Dimos Tsouros, Tias Guns,
- Abstract要約: 制約プログラミング(CP)は、よく適合した問題解決パラダイムであるが、その中核となるプロセス、すなわち制約モデリングは、広く採用されるボトルネックである。
近年,Large Language Models (LLM) をモデリングアシスタントとして使用し,問題記述を実行可能な制約モデルに変換する研究が行われている。
CP-Benchは、様々な既知の問題クラスを含む新しいベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 6.273426548149088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combinatorial problems are present in a wide range of industries. Constraint Programming (CP) is a well-suited problem-solving paradigm, but its core process, namely constraint modelling, is a bottleneck for wider adoption. Aiming to alleviate this bottleneck, recent studies have explored using Large Language Models (LLMs) as modelling assistants, transforming combinatorial problem descriptions to executable constraint models, similar to coding assistants. However, the existing evaluation datasets for constraint modelling are often limited to small, homogeneous, or domain-specific instances, which do not capture the diversity of real-world scenarios. This work addresses this gap by introducing CP-Bench, a novel benchmark dataset that includes a diverse set of well-known combinatorial problem classes sourced from the CP community, structured explicitly for evaluating LLM-driven CP modelling. With this dataset, and given the variety of constraint modelling frameworks, we compare and evaluate the modelling capabilities of LLMs for three distinct constraint modelling systems, which vary in abstraction level and underlying syntax: the high-level MiniZinc language and Python-based CPMpy library, and the lower-level Python interface of the OR-Tools CP-SAT solver. In order to enhance the ability of LLMs to produce valid constraint models, we systematically evaluate the use of prompt-based and inference-time compute methods adapted from existing LLM-based code generation research. Our results underscore the modelling convenience provided by Python-based frameworks, as well as the effectiveness of documentation-rich system prompts, which, augmented with repeated sampling and self-verification, achieve further improvements, reaching up to 70\% accuracy on this new, highly challenging benchmark.
- Abstract(参考訳): 組合せ問題は幅広い産業に存在している。
制約プログラミング(CP)は、よく適合した問題解決パラダイムであるが、その中核となるプロセス、すなわち制約モデリングは、広く採用されるボトルネックである。
このボトルネックを軽減するため、近年の研究では、Large Language Models (LLM) をモデリングアシスタントとして使用し、組合せ問題記述をコーディングアシスタントに似た実行可能な制約モデルに変換することを検討している。
しかし、制約モデリングのための既存の評価データセットは、しばしば、現実のシナリオの多様性を捉えない、小さく、均一で、ドメイン固有のインスタンスに限られる。
この研究はCP-Benchという新しいベンチマークデータセットを導入することでこのギャップに対処する。CPコミュニティから派生したよく知られた組合せ問題クラスが多数含まれており、LLM駆動のCPモデリングを評価するために明示的に構成されている。
このデータセットを用いて,制約モデリングフレームワークの多種多様さを考慮し,抽象レベルと基本構文の異なる3つの制約モデリングシステムに対するLLMのモデリング機能の比較と評価を行った。
有効な制約モデルを生成するためのLCMの能力を高めるため,既存のLCMベースのコード生成研究から適応したプロンプトベースおよび推論時間計算手法を体系的に評価した。
我々の結果は、Pythonベースのフレームワークが提供するモデリングの利便性と、反復的なサンプリングと自己検証で強化されたドキュメンテーションリッチシステムプロンプトの有効性を強調し、この新しい非常に難しいベンチマークで最大70%の精度で、さらなる改善を実現した。
関連論文リスト
- Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Automatic Feature Learning for Essence: a Case Study on Car Sequencing [1.006631010704608]
問題インスタンスに最適な組み合わせを自動的に選択するために、機械学習モデルを構築するタスクについて検討する。
学習プロセスの重要な部分は、選択モデルへの入力として機能するインスタンス機能を定義することである。
私たちの貢献は、言語モデルを用いた問題インスタンスの高レベル表現から直接、インスタンス機能の自動学習です。
論文 参考訳(メタデータ) (2024-09-23T16:06:44Z) - Learning to Learn in Interactive Constraint Acquisition [7.741303298648302]
制約獲得(CA:Constraint Acquisition)では、モデルを自動的に学習することでユーザを支援することが目標である。
アクティブCAでは、クエリを対話的にユーザにポストすることでこれを行う。
本稿では、確率論的分類モデルを用いて対話型CAを誘導し、より有望なクエリを生成することを提案する。
論文 参考訳(メタデータ) (2023-12-17T19:12:33Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Towards Portfolios of Streamlined Constraint Models: A Case Study with
the Balanced Academic Curriculum Problem [1.8466814193413488]
本稿では,問題クラスの抽象的エッセンス仕様に含まれる型から導かれる,ストリームライナー制約の自動追加に焦点をあてる。
合理化されたEssence仕様を制約モデルに洗練することで、多数のモデル選択が生まれる。
各種のレースは、訓練の計算コストを抑えるために使用される。
論文 参考訳(メタデータ) (2020-09-21T19:48:02Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。