論文の概要: Defective Task Descriptions in LLM-Based Code Generation: Detection and Analysis
- arxiv url: http://arxiv.org/abs/2604.24703v1
- Date: Mon, 27 Apr 2026 17:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.258083
- Title: Defective Task Descriptions in LLM-Based Code Generation: Detection and Analysis
- Title(参考訳): LLMに基づくコード生成における欠陥タスク記述:検出と解析
- Authors: Amal Akli, Mike Papadakis, Maxime Cordy, Yves Le Traon,
- Abstract要約: 大規模な言語モデルはコード生成に広く使われているが、タスク記述が十分に詳細で十分に表現されているという暗黙の仮定に依存している。
実際には、ユーザーは欠陥のある記述を提供し、それがコードの正確性に強い影響を与える可能性がある。
我々はパラメータ効率の良い小型モデルに基づく軽量分類器SpecValidatorを開発した。
- 参考スコア(独自算出の注目度): 21.26459132144385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are widely used for code generation, yet they rely on an implicit assumption that the task descriptions are sufficiently detailed and well-formed. However, in practice, users may provide defective descriptions, which can have a strong effect on code correctness. To address this issue, we develop SpecValidator, a lightweight classifier based on a small model that has been parameter-efficiently finetuned, to automatically detect task description defects. We evaluate SpecValidator on three types of defects, Lexical Vagueness, Under-Specification and Syntax-Formatting on 3 benchmarks with task descriptions of varying structure and complexity. Our results show that SpecValidator achieves defect detection of F1 = 0.804 and MCC = 0.745, significantly outperforming GPT-5-mini (F1 = 0.469 and MCC = 0.281) and Claude Sonnet 4 (F1 = 0.518 and MCC = 0.359). Perhaps more importantly, our analysis indicates that SpecValidator can generalize to unseen issues and detect unknown Under-Specification defects in the original (real) descriptions of the benchmarks used. Our results also show that the robustness of LLMs in task description defects depends primarily on the type of defect and the characteristics of the task description, rather than the capacity of the model, with Under-Specification defects being the most severe. We further found that benchmarks with richer contextual grounding, such as LiveCodeBench, exhibit substantially greater resilience, highlighting the importance of structured task descriptions for reliable LLM-based code generation.
- Abstract(参考訳): 大規模な言語モデルはコード生成に広く使われているが、タスク記述が十分に詳細で十分に表現されているという暗黙の仮定に依存している。
しかし、実際には、ユーザーは欠陥のある記述を提供し、それがコードの正確性に強い影響を及ぼす可能性がある。
この問題に対処するために,パラメータ効率の良い小型モデルに基づく軽量分類器SpecValidatorを開発し,タスク記述欠陥を自動的に検出する。
様々な構造と複雑さのタスク記述を伴う3つのベンチマークにおいて、Lexical Vagueness、Under-Specification、Syntax-Formattingの3種類の欠陥についてSpecValidatorを評価した。
その結果, SpecValidator は GPT-5-mini (F1 = 0.469, MCC = 0.281) と Claude Sonnet 4 (F1 = 0.518, MCC = 0.359) の欠陥検出に成功し, GPT-5-mini (F1 = 0.469, MCC = 0.281) を著しく上回った。
さらに重要なことは、我々の分析はSpecValidatorが未確認の問題を一般化し、使用しているベンチマークのオリジナルの(実際の)記述で未知のUnder-Specification欠陥を検出できることを示している。
また, タスク記述欠陥におけるLCMの堅牢性は, モデルのキャパシティよりも, タスク記述のタイプや特性に大きく依存していることが示唆された。
さらに、LiveCodeBenchのようなよりリッチなコンテキスト基底を持つベンチマークでは、信頼性の高いLCMベースのコード生成において、構造化されたタスク記述の重要性が強調されている。
関連論文リスト
- When Prompt Under-Specification Improves Code Correctness: An Exploratory Study of Prompt Wording and Structure Effects on LLM-Based Code Generation [21.26459132144385]
本稿では, 構造, タスクの複雑さ, 仕様の豊かさが, 突然変異を誘発するロバストネスとどのように相互作用するかを検討する。
その結果,ロバスト性はLLMの固定特性ではなく,急速構造に強く依存していることが判明した。
驚くべきことに、早急な突然変異によって正しさが向上する可能性があることもわかりました。
論文 参考訳(メタデータ) (2026-04-27T17:21:09Z) - From Program Slices to Causal Clarity: Evaluating Faithful, Actionable LLM-Generated Failure Explanations via Context Partitioning and LLM-as-a-Judge [0.2230291569252836]
誤解を招く説明は下流のタスクには有害である(例えば、バグトリアージ、バグ修正など)。
本研究では,様々なコンテキスト構成による説明品質への影響について検討する。
論文 参考訳(メタデータ) (2026-04-20T14:16:39Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - InFi-Check: Interpretable and Fine-Grained Fact-Checking of LLMs [48.98720183285795]
InFi-Checkは、大規模な言語モデルの解釈ときめ細かい事実チェックのためのフレームワークである。
InFi-Checkerは、サポートエビデンスを提供し、きめ細かいエラータイプを分類し、修正と共に正当化を生成する。
実験の結果,InFi-CheckerはInFi-Check-FGの最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2026-01-10T20:00:17Z) - LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis [16.217842423570055]
大規模言語モデル統合ソフトウェアにおける欠陥ローカライゼーションのためのマルチエージェントフレームワークLIDLを提案する。
LIDLを105のGitHubリポジトリと16のエージェントベースシステムから収集した146の現実世界の欠陥インスタンスで評価した。
論文 参考訳(メタデータ) (2026-01-09T05:47:59Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T10:57:26Z) - Understanding Defects in Generated Codes by Language Models [0.669087470775851]
本研究では,大規模言語モデルによって生成されたコードスニペットの367の欠陥を分類,解析する。
エラーカテゴリは、LLMが頻繁に失敗する重要な領域を示し、目標とする改善の必要性を強調している。
本稿では,スクラッチパッド・プロンプト・プログラム・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・ストラクテッド・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・オブ・ソート・プロンプト・プロンプト・アンド・ストラクテッド・オブ・フォーンティング(Structued Chain-of-Thought Prompting)の5つの迅速な技術技術
論文 参考訳(メタデータ) (2024-08-23T21:10:09Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。