論文の概要: CP-Bench: Evaluating Large Language Models for Constraint Modelling
- arxiv url: http://arxiv.org/abs/2506.06052v2
- Date: Thu, 04 Sep 2025 09:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.754347
- Title: CP-Bench: Evaluating Large Language Models for Constraint Modelling
- Title(参考訳): CP-Bench:制約モデリングのための大規模言語モデルの評価
- Authors: Kostis Michailidis, Dimos Tsouros, Tias Guns,
- Abstract要約: 制約プログラミング(CP)は、問題を解くために広く使われているが、その中核となるプロセス、すなわち制約モデリングは、かなりの専門知識を必要とし、広く採用される際のボトルネックと考えられている。
近年,問題記述を実行可能な制約モデルに変換するために,Large Language Models (LLMs) を用いて検討されている。
制約モデリングのための既存の評価データセットは、しばしば、現実のシナリオの多様性を捉えない、小さく、均一で、ドメイン固有のインスタンスに限られる。
この研究はCP-Benchの導入によってこのギャップに対処する。CPコミュニティから得られた様々な既知の問題を含む新しいベンチマークであるCP-Benchは構造化されている。
- 参考スコア(独自算出の注目度): 6.250460397062786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constraint Programming (CP) is widely used to solve combinatorial problems, but its core process, namely constraint modelling, requires significant expertise and is considered to be a bottleneck for wider adoption. Aiming to alleviate this bottleneck, recent studies have explored using Large Language Models (LLMs) to transform combinatorial problem descriptions into executable constraint models. However, the existing evaluation datasets for constraint modelling are often limited to small, homogeneous, or domain-specific instances, which do not capture the diversity of real-world scenarios. This work addresses this gap by introducing CP-Bench, a novel benchmark that includes a diverse set of well-known combinatorial problems sourced from the CP community, structured explicitly for evaluating LLM-driven CP modelling. With this dataset, and given the variety of constraint modelling frameworks, we compare and evaluate the modelling capabilities of LLMs for three distinct constraint modelling systems, which vary in abstraction level and underlying syntax. Notably, the results show higher performance when modelling with a high-level Python-based framework. Additionally, we systematically evaluate the use of prompt-based and inference-time compute methods across different LLMs, which further increase accuracy, reaching up to 70% on this highly challenging benchmark.
- Abstract(参考訳): 制約プログラミング(CP)は、組合せ問題を解くために広く使われているが、その中核となるプロセス、すなわち制約モデリングは、重要な専門知識を必要とし、より広範な採用のボトルネックであると考えられている。
このボトルネックを軽減するため、近年の研究では、組合せ問題記述を実行可能な制約モデルに変換するために、Large Language Models (LLMs) を用いて検討されている。
しかし、制約モデリングのための既存の評価データセットは、しばしば、現実のシナリオの多様性を捉えない、小さく、均一で、ドメイン固有のインスタンスに限られる。
この研究はCP-Benchという新しいベンチマークを導入することでこのギャップに対処する。CPコミュニティから得られた多くの有名な組合せ問題を含むこのベンチマークは、LLM駆動のCPモデリングを評価するために明示的に構成されている。
このデータセットを用いて、様々な制約モデリングフレームワークを用いて、抽象レベルと基礎構文の異なる3つの異なる制約モデリングシステムにおいて、LLMのモデリング能力を比較し、評価する。
特に、ハイレベルなPythonベースのフレームワークでモデリングすると、パフォーマンスが向上する。
さらに,異なるLSM間でのプロンプトベースおよび推論時間計算手法の使用を体系的に評価し,精度をさらに向上させ,この高度に挑戦するベンチマークで最大70%まで到達した。
関連論文リスト
- Accurate and Consistent Graph Model Generation from Text with Large Language Models [1.9049294570026933]
自然言語記述からグラフモデルを生成することは、ソフトウェア工学における多くのアプリケーションにとって重要なタスクである。
大規模言語モデル(LLM)の台頭に伴い、グラフモデル生成にLLMを使うことへの関心が高まっている。
本稿では,生成したグラフモデルの一貫性と品質を向上させる新しい抽象化・拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T01:52:25Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Automatic Feature Learning for Essence: a Case Study on Car Sequencing [1.006631010704608]
問題インスタンスに最適な組み合わせを自動的に選択するために、機械学習モデルを構築するタスクについて検討する。
学習プロセスの重要な部分は、選択モデルへの入力として機能するインスタンス機能を定義することである。
私たちの貢献は、言語モデルを用いた問題インスタンスの高レベル表現から直接、インスタンス機能の自動学習です。
論文 参考訳(メタデータ) (2024-09-23T16:06:44Z) - Learning to Learn in Interactive Constraint Acquisition [7.741303298648302]
制約獲得(CA:Constraint Acquisition)では、モデルを自動的に学習することでユーザを支援することが目標である。
アクティブCAでは、クエリを対話的にユーザにポストすることでこれを行う。
本稿では、確率論的分類モデルを用いて対話型CAを誘導し、より有望なクエリを生成することを提案する。
論文 参考訳(メタデータ) (2023-12-17T19:12:33Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Towards Portfolios of Streamlined Constraint Models: A Case Study with
the Balanced Academic Curriculum Problem [1.8466814193413488]
本稿では,問題クラスの抽象的エッセンス仕様に含まれる型から導かれる,ストリームライナー制約の自動追加に焦点をあてる。
合理化されたEssence仕様を制約モデルに洗練することで、多数のモデル選択が生まれる。
各種のレースは、訓練の計算コストを抑えるために使用される。
論文 参考訳(メタデータ) (2020-09-21T19:48:02Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。