論文の概要: Constraint acquisition needs better benchmarks
- arxiv url: http://arxiv.org/abs/2605.26279v1
- Date: Mon, 25 May 2026 19:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.372662
- Title: Constraint acquisition needs better benchmarks
- Title(参考訳): 制約獲得はより良いベンチマークを必要とする
- Authors: Rafał Stachowiak, Tomasz P. Pawlak,
- Abstract要約: MPMMineは、さまざまなドメイン知識アーチファクトを使用してモデルを発見し、検証し、拡張するアルゴリズムを評価するために設計されたベンチマークスイートである。
MPMMineは一貫性、一貫性、標準化、オープン性、バージョン管理によってガイドされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constraint Acquisition (CA) and related research on the validation and enhancement of Mathematical Programming (MP) models from domain knowledge artifacts are currently limited by inadequate benchmarks. This deficiency impedes reproducibility and cross-study comparability, slowing the maturation of CA methods. Existing benchmarks were designed for solver evaluation rather than for assessing CA algorithms. They are loosely organized, treat individual problems inconsistently, and omit the domain knowledge artifacts required by CA methods. This work presents MPMMine, a benchmark suite designed to assess algorithms that discover, validate, and enhance MP models using diverse domain knowledge artifacts. MPMMine is guided by consistency, standardization, completeness, extensibility, openness, and version control. It adopts a uniform structure and relies on open formats: MiniZinc, CommonMark, and JSON. It provides multiple models per problem, tens of instances per model, and thousands of solutions and non-solutions in both integer and continuous domains, alongside natural-language descriptions to support text-to-model methods.
- Abstract(参考訳): 制約獲得(CA)と関連するドメイン知識のアーティファクトからの数学的プログラミング(MP)モデルの妥当性と拡張に関する研究は、現在、不十分なベンチマークによって制限されている。
この欠損は再現性とクロススタディコンパビリティを阻害し、CA法の成熟を遅らせる。
既存のベンチマークは、CAアルゴリズムを評価するのではなく、解決者評価のために設計されている。
それらは緩やかに組織化され、個々の問題を一貫性なく扱い、CAメソッドに必要なドメイン知識アーティファクトを省略します。
この研究は、様々なドメイン知識成果物を用いてMPモデルを発見し、検証し、拡張するアルゴリズムを評価するために設計されたベンチマークスイートであるMPMMineを提示する。
MPMMineは一貫性、標準化、完全性、拡張性、オープン性、バージョン管理によってガイドされる。
統一構造を採用し、オープンフォーマットであるMiniZinc、CommonMark、JSONに依存している。
問題毎に複数のモデルを提供し、モデル毎に数十のインスタンスを提供し、整数と連続ドメインの両方で数千のソリューションと非解決を提供し、テキストからモデルへのメソッドをサポートする自然言語記述を提供する。
関連論文リスト
- RefactorCoderQA: Benchmarking LLMs for Multi-Domain Coding Question Solutions in Cloud and Edge Deployment [20.416910591388618]
本稿では,Large Language Models (LLM) の性能を評価するためのベンチマークであるRefactorCoderQAを紹介する。
我々の微調整モデルであるRefactorCoder-MoEは最先端のパフォーマンスを実現し、オープンソースと商用のベースラインを76.84%で上回りました。
論文 参考訳(メタデータ) (2025-09-12T17:44:22Z) - EVA-MILP: Towards Standardized Evaluation of MILP Instance Generation [13.49043811341421]
混合整数線形プログラミング(MILP)は、複雑な意思決定問題を解決するための基礎となる。
多様なデータセットに対する機械学習の需要により,MILPインスタンス生成手法の普及が加速し,標準化された評価手法が大幅に向上した。
本稿では,MILPインスタンス生成手法の体系的および客観的評価を目的とした総合ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:42:15Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - Scalable Structure Learning for Sparse Context-Specific Systems [0.0]
数百の変数にスケールする文脈特化モデルを学習するためのアルゴリズムを提案する。
本手法は, 合成データと実世界の実例でよく動作することを示す。
論文 参考訳(メタデータ) (2024-02-12T16:28:52Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Integer Programming for Causal Structure Learning in the Presence of
Latent Variables [28.893119229428713]
本稿では,整数プログラミング(IP)の定式化を解き,連続変数の集合に対してスコア最大化祖先ADMGを返却する,新しい正確なスコアベース手法を提案する。
特に、DAG学習問題に対する最先端IPモデルを一般化し、有効な不等式の新しいクラスを導出し、IPベースのADMG学習モデルを形式化する。
論文 参考訳(メタデータ) (2021-02-05T12:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。