Fugu-MT 論文翻訳(概要): CP-Bench: Evaluating Large Language Models for Constraint Modelling

論文の概要: CP-Bench: Evaluating Large Language Models for Constraint Modelling

arxiv url: http://arxiv.org/abs/2506.06052v1
Date: Fri, 06 Jun 2025 12:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.478693
Title: CP-Bench: Evaluating Large Language Models for Constraint Modelling
Title（参考訳）: CP-Bench:制約モデリングのための大規模言語モデルの評価
Authors: Kostis Michailidis, Dimos Tsouros, Tias Guns,
Abstract要約: 制約プログラミング(CP)は、よく適合した問題解決パラダイムであるが、その中核となるプロセス、すなわち制約モデリングは、広く採用されるボトルネックである。近年,Large Language Models (LLM) をモデリングアシスタントとして使用し,問題記述を実行可能な制約モデルに変換する研究が行われている。 CP-Benchは、様々な既知の問題クラスを含む新しいベンチマークデータセットである。
参考スコア（独自算出の注目度）: 6.273426548149088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Combinatorial problems are present in a wide range of industries. Constraint Programming (CP) is a well-suited problem-solving paradigm, but its core process, namely constraint modelling, is a bottleneck for wider adoption. Aiming to alleviate this bottleneck, recent studies have explored using Large Language Models (LLMs) as modelling assistants, transforming combinatorial problem descriptions to executable constraint models, similar to coding assistants. However, the existing evaluation datasets for constraint modelling are often limited to small, homogeneous, or domain-specific instances, which do not capture the diversity of real-world scenarios. This work addresses this gap by introducing CP-Bench, a novel benchmark dataset that includes a diverse set of well-known combinatorial problem classes sourced from the CP community, structured explicitly for evaluating LLM-driven CP modelling. With this dataset, and given the variety of constraint modelling frameworks, we compare and evaluate the modelling capabilities of LLMs for three distinct constraint modelling systems, which vary in abstraction level and underlying syntax: the high-level MiniZinc language and Python-based CPMpy library, and the lower-level Python interface of the OR-Tools CP-SAT solver. In order to enhance the ability of LLMs to produce valid constraint models, we systematically evaluate the use of prompt-based and inference-time compute methods adapted from existing LLM-based code generation research. Our results underscore the modelling convenience provided by Python-based frameworks, as well as the effectiveness of documentation-rich system prompts, which, augmented with repeated sampling and self-verification, achieve further improvements, reaching up to 70\% accuracy on this new, highly challenging benchmark.
Abstract（参考訳）: 組合せ問題は幅広い産業に存在している。制約プログラミング(CP)は、よく適合した問題解決パラダイムであるが、その中核となるプロセス、すなわち制約モデリングは、広く採用されるボトルネックである。このボトルネックを軽減するため、近年の研究では、Large Language Models (LLM) をモデリングアシスタントとして使用し、組合せ問題記述をコーディングアシスタントに似た実行可能な制約モデルに変換することを検討している。しかし、制約モデリングのための既存の評価データセットは、しばしば、現実のシナリオの多様性を捉えない、小さく、均一で、ドメイン固有のインスタンスに限られる。この研究はCP-Benchという新しいベンチマークデータセットを導入することでこのギャップに対処する。CPコミュニティから派生したよく知られた組合せ問題クラスが多数含まれており、LLM駆動のCPモデリングを評価するために明示的に構成されている。このデータセットを用いて,制約モデリングフレームワークの多種多様さを考慮し,抽象レベルと基本構文の異なる3つの制約モデリングシステムに対するLLMのモデリング機能の比較と評価を行った。有効な制約モデルを生成するためのLCMの能力を高めるため,既存のLCMベースのコード生成研究から適応したプロンプトベースおよび推論時間計算手法を体系的に評価した。我々の結果は、Pythonベースのフレームワークが提供するモデリングの利便性と、反復的なサンプリングと自己検証で強化されたドキュメンテーションリッチシステムプロンプトの有効性を強調し、この新しい非常に難しいベンチマークで最大70%の精度で、さらなる改善を実現した。

関連論文リスト

LOCUS: Low-Dimensional Model Embeddings for Efficient Model Exploration, Comparison, and Selection [15.182368486530128]
LOCUSは,クエリ間の言語モデルの性能をコンパクトに表現する低次元ベクトル埋め込みを生成する手法である。 LOCUSは、クエリエンコーディングと評価スコアをエンコーダモデルを介して決定論的フォワードパスによって埋め込みを生成するアテンションベースのアプローチである。我々は、モデル埋め込みとクエリエンコーディングを使用して、未知のクエリに対して最先端のルーティング精度を実現する正当性予測器を訓練する。
論文参考訳（メタデータ） (2026-01-28T22:09:42Z)
The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models [54.51795784459866]
マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
論文参考訳（メタデータ） (2025-12-29T09:55:12Z)
When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。 LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文参考訳（メタデータ） (2025-11-18T10:40:32Z)
An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T10:28:23Z)
Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories [21.899117703417517]
進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-09-16T10:55:50Z)
Accurate and Consistent Graph Model Generation from Text with Large Language Models [1.9049294570026933]
自然言語記述からグラフモデルを生成することは、ソフトウェア工学における多くのアプリケーションにとって重要なタスクである。大規模言語モデル(LLM)の台頭に伴い、グラフモデル生成にLLMを使うことへの関心が高まっている。本稿では,生成したグラフモデルの一貫性と品質を向上させる新しい抽象化・拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T01:52:25Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。 NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文参考訳（メタデータ） (2025-05-12T17:36:14Z)
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文参考訳（メタデータ） (2025-04-17T17:49:40Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
Automatic Feature Learning for Essence: a Case Study on Car Sequencing [1.006631010704608]
問題インスタンスに最適な組み合わせを自動的に選択するために、機械学習モデルを構築するタスクについて検討する。学習プロセスの重要な部分は、選択モデルへの入力として機能するインスタンス機能を定義することである。私たちの貢献は、言語モデルを用いた問題インスタンスの高レベル表現から直接、インスタンス機能の自動学習です。
論文参考訳（メタデータ） (2024-09-23T16:06:44Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。 CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。 CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文参考訳（メタデータ） (2024-02-05T03:25:04Z)
Learning to Learn in Interactive Constraint Acquisition [7.741303298648302]
制約獲得(CA:Constraint Acquisition)では、モデルを自動的に学習することでユーザを支援することが目標である。アクティブCAでは、クエリを対話的にユーザにポストすることでこれを行う。本稿では、確率論的分類モデルを用いて対話型CAを誘導し、より有望なクエリを生成することを提案する。
論文参考訳（メタデータ） (2023-12-17T19:12:33Z)
Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-26T09:08:38Z)
Towards Portfolios of Streamlined Constraint Models: A Case Study with the Balanced Academic Curriculum Problem [1.8466814193413488]
本稿では,問題クラスの抽象的エッセンス仕様に含まれる型から導かれる,ストリームライナー制約の自動追加に焦点をあてる。合理化されたEssence仕様を制約モデルに洗練することで、多数のモデル選択が生まれる。各種のレースは、訓練の計算コストを抑えるために使用される。
論文参考訳（メタデータ） (2020-09-21T19:48:02Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
PAC Bounds for Imitation and Model-based Batch Learning of Contextual Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文参考訳（メタデータ） (2020-06-11T11:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。