論文の概要: Delulu: A Verified Multi-Lingual Benchmark for Code Hallucination Detection in Fill-in-the-Middle Tasks
- arxiv url: http://arxiv.org/abs/2605.07024v1
- Date: Thu, 07 May 2026 23:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.666851
- Title: Delulu: A Verified Multi-Lingual Benchmark for Code Hallucination Detection in Fill-in-the-Middle Tasks
- Title(参考訳): Delulu: 中間タスクにおけるコード幻覚検出のための多言語ベンチマーク
- Authors: Mahdi Erfanian, Nelson Daniel Troncoso, Aashna Garg, Amabel Gale, Xiaoyu Liu, Pareesa Ameneh Golnari, Shengyu Fu,
- Abstract要約: コード生成のための大規模言語モデルは、Fillin-theMiddle (FIM)タスクにおいて幻覚を頻繁に生成する。
Deluluは、7つの言語と4つの幻覚型で1,951個のFIMサンプルを検証した多言語ベンチマークである。
0.5B-32Bパラメータにまたがる5つのファミリーから,11個のオープンウェイトFIMモデルを評価した。
- 参考スコア(独自算出の注目度): 4.089259624354187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models for code generation frequently produce hallucinations in Fill-in-the-Middle (FIM) tasks -- plausible but incorrect completions such as invented API methods, invalid parameters, undefined variables, or non-existent imports. These failures pass superficial review yet introduce runtime errors. We introduce Delulu, a verified multi-lingual benchmark of 1,951 FIM samples across 7 languages and 4 hallucination types. Samples are curated through an adversarial pipeline: a frontier LLM generates plausible hallucinations, four diverse judge models evaluate them, embedding-based clustering mines progressively harder examples, self-contained Docker containers verify that golden completions compile while hallucinated variants produce the expected runtime error, and a final human-expert review removes any remaining biased or trivially decidable samples. We evaluate 11 open-weight FIM models from five families spanning 0.5B-32B parameters: a six-point Qwen2.5-Coder scaling slate, plus a cross-family slate (CodeLlama, DeepSeek-Coder-V2, StarCoder2). The strongest model reaches only 84.5% pass@1, no family exceeds 0.77 Edit Similarity, and every family produces hallucination-aligned completions on a non-trivial share of samples, confirming that the difficulty exposed by Delulu is task-intrinsic rather than family-specific. We release the benchmark, containers, and evaluation framework at https://github.com/microsoft/delulu.
- Abstract(参考訳): コード生成のための大規模言語モデルは、しばしばFill-in-the-Middle(FIM)タスクの幻覚を生成する。
これらの障害は表面的なレビューをパスしますが、実行時のエラーが発生します。
Deluluは、7つの言語と4つの幻覚型で1,951個のFIMサンプルを検証した多言語ベンチマークである。
サンプルは、敵対的なパイプラインを通じてキュレートされる:フロンティアのLMは、プラプシブルな幻覚を生成する。4つの多様な判断モデルは、それらを評価し、埋め込みベースのクラスタリングマイニングは徐々に難しい例である。
0.5B-32Bパラメータにまたがる6点のQwen2.5-Coderスケーリングスレートとクロスファミリースレート(CodeLlama, DeepSeek-Coder-V2, StarCoder2)の5つのファミリーから11個のオープンウェイトFIMモデルを評価する。
最強のモデルは84.5%のpass@1に留まり、家族は0.77のEdit類似性を超えず、すべての家族が非自明なサンプルのシェアで幻覚に整列した完了を生成し、家族固有のものではなく、Deluluによって露呈される困難はタスク固有のものであることを確認している。
ベンチマーク、コンテナ、評価フレームワークはhttps://github.com/microsoft/delulu.comで公開しています。
関連論文リスト
- Self-reflection in Automated Qualitative Coding: Improving Text Annotation through Secondary LLM Critique [1.5749416770494706]
大規模言語モデル(LLM)は、大規模なデータセットの高度な定性的な符号化を可能にする。
簡単な一般化可能な2段階のワークフローを提示する: LLMは人間設計のコードブックを適用し、二次LPM批評家は各正のラベルに対して自己回帰を行う。
我々は,Apache Software Foundationのプロジェクト評価に関する議論において,3,000件以上の高コンテンツメールに対する6つの定性的なコードに対して,このアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-14T22:27:13Z) - Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs [16.173245551933178]
コンテキストグラウンドド・幻覚(Context-grounded hallucination)は、モデル出力がソーステキストに対して検証できない情報を含む場合である。
このような幻覚を局在化するためのLCMの適用性について検討する。
論文 参考訳(メタデータ) (2025-09-26T17:03:24Z) - Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文 参考訳(メタデータ) (2025-05-16T18:19:38Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。