Fugu-MT 論文翻訳(概要): CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification

論文の概要: CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification

arxiv url: http://arxiv.org/abs/2405.00253v2
Date: Wed, 26 Jun 2024 20:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 19:06:57.379526
Title: CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification
Title（参考訳）: CodeHalu: 実行ベースの検証によるLLMのコード幻覚
Authors: Yuchen Tian, Weixiang Yan, Qian Yang, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma,
Abstract要約: 本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。コード幻覚を、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類する。コード幻覚を体系的に定量的に評価するために、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを構築した。
参考スコア（独自算出の注目度）: 27.67210769524277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have made significant progress in code generation, providing developers with unprecedented automated programming support. However, LLMs often generate code that is syntactically correct and even semantically plausible but may not execute as expected or meet specified requirements. This phenomenon of hallucinations in the code domain has not been systematically explored. To enhance the community's understanding and research on this issue, we introduce the concept of code hallucinations and propose a classification method for code hallucination based on execution verification. We classify code hallucinations into four main types: mapping, naming, resource, and logic hallucinations, with each category further divided into different subcategories to understand and address the unique challenges faced by LLMs in code generation with finer granularity. Additionally, we develop a dynamic detection algorithm named CodeHalu to quantify code hallucinations and establish the CodeHaluEval benchmark, which includes 8,883 samples from 699 tasks to systematically and quantitatively evaluate code hallucinations. By evaluating 17 popular LLMs on this benchmark, we reveal significant differences in their accuracy and reliability in code generation and provide detailed insights for further improving the code generation capabilities of LLMs. The CodeHalu benchmark and code are publicly available at https://github.com/yuchen814/CodeHalu.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において大きな進歩を遂げており、前例のない自動プログラミングサポートを提供する。しかし、LLMは構文的に正しいコードを生成することが多く、意味的にも妥当だが、期待通りに実行したり、特定の要件を満たしたりすることはできない。コード領域におけるこの幻覚の現象は、体系的に研究されていない。この問題に対するコミュニティの理解と研究を強化するため,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類手法を提案する。コード幻覚は、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類され、各カテゴリは、より粒度の細かいコード生成においてLLMが直面する固有の課題を理解し、対処するために、さらに異なるサブカテゴリに分割される。さらに,コード幻覚を定量化し,コード幻覚を体系的かつ定量的に評価する699タスクから8,883個のサンプルを含むCodeHaluEvalベンチマークを確立するために,CodeHaluという動的検出アルゴリズムを開発した。このベンチマークで17種類のLLMを評価した結果,コード生成の精度と信頼性に有意な差が見られ,LLMのコード生成能力を改善するための詳細な知見が得られた。 CodeHaluベンチマークとコードはhttps://github.com/yuchen814/CodeHaluで公開されている。

関連論文リスト

A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文参考訳（メタデータ） (2025-11-02T02:58:41Z)
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution [68.95247403447051]
BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。 10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。 BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
論文参考訳（メタデータ） (2025-10-09T18:01:47Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges [1.397989121713806]
大規模言語モデル(LLM)は、ソースコードをスケーラブルに生成できる。 LLMは、誤った、非感覚的で、正当化可能な情報である幻覚を発生させる傾向がある。本研究では,CodeLLMsによる幻覚に関する最近の研究と技術について検討する。
論文参考訳（メタデータ） (2025-04-29T14:13:57Z)
ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [36.63923402713602]
大型言語モデル(LLM)は幻覚の傾向があり、意図した意味から逸脱する。コード要約における幻覚検出に特化してキュレートされた10Kサンプルを備えた,ファーストオブザキンドデータセットであるCodeSumEvalを紹介した。
論文参考訳（メタデータ） (2024-10-17T19:38:55Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。 Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文参考訳（メタデータ） (2024-10-13T20:41:47Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation [33.46342144822026]
コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。有望な性能にもかかわらず、LLMは、特にコード生成のシナリオにおいて、幻覚を伴うコンテンツを生成することが多い。
論文参考訳（メタデータ） (2024-09-30T17:51:15Z)
CodeMirage: Hallucinations in Code Generated by Large Language Models [6.063525456640463]
大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。 LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
論文参考訳（メタデータ） (2024-08-14T22:53:07Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文参考訳（メタデータ） (2024-04-01T07:31:45Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。