論文の概要: When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling
- arxiv url: http://arxiv.org/abs/2511.14334v2
- Date: Wed, 19 Nov 2025 10:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.135457
- Title: When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling
- Title(参考訳): 単語がモデルを変えるとき:制約プログラミングモデリングのためのLLMの感度
- Authors: Alessio Pellegrino, Jacopo Mauro,
- Abstract要約: 大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
- 参考スコア(独自算出の注目度): 1.052782170493037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the long-standing goals in optimisation and constraint programming is to describe a problem in natural language and automatically obtain an executable, efficient model. Large language models appear to bring this vision closer, showing impressive results in automatically generating models for classical benchmarks. However, much of this apparent success may derive from data contamination rather than genuine reasoning: many standard CP problems are likely included in the training data of these models. To examine this hypothesis, we systematically rephrased and perturbed a set of well-known CSPLib problems to preserve their structure while modifying their context and introducing misleading elements. We then compared the models produced by three representative LLMs across original and modified descriptions. Our qualitative analysis shows that while LLMs can produce syntactically valid and semantically plausible models, their performance drops sharply under contextual and linguistic variation, revealing shallow understanding and sensitivity to wording.
- Abstract(参考訳): 最適化と制約プログラミングにおける長年の目標の1つは、自然言語の問題を記述し、実行可能で効率的なモデルを自動的に取得することである。
大きな言語モデルは、このビジョンを近づけ、古典的なベンチマークのモデルを自動的に生成する印象的な結果を見せているようだ。
しかし、この明らかな成功の多くは、真の推論ではなく、データ汚染に由来する可能性がある: 標準的なCP問題は、これらのモデルのトレーニングデータに含まれている可能性が高い。
この仮説を考察するために、我々はよく知られたCSPLib問題の集合を体系的に書き直し、それらの構造を保存し、文脈を変更し、誤解を招く要素を導入した。
次に、3つの代表LSMによって生成されたモデルと、オリジナルの記述と修正された記述を比較した。
質的分析により,LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが,その性能は文脈的・言語的変動の下で急激に低下し,単語の理解や感性は低下することが示された。
関連論文リスト
- CP-Bench: Evaluating Large Language Models for Constraint Modelling [6.250460397062786]
制約プログラミング(CP)は、問題を解くために広く使われているが、その中核となるプロセス、すなわち制約モデリングは、かなりの専門知識を必要とし、広く採用される際のボトルネックと考えられている。
近年,問題記述を実行可能な制約モデルに変換するために,Large Language Models (LLMs) を用いて検討されている。
制約モデリングのための既存の評価データセットは、しばしば、現実のシナリオの多様性を捉えない、小さく、均一で、ドメイン固有のインスタンスに限られる。
この研究はCP-Benchの導入によってこのギャップに対処する。CPコミュニティから得られた様々な既知の問題を含む新しいベンチマークであるCP-Benchは構造化されている。
論文 参考訳(メタデータ) (2025-06-06T12:56:02Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。