論文の概要: Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges
- arxiv url: http://arxiv.org/abs/2504.20799v1
- Date: Tue, 29 Apr 2025 14:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.926017
- Title: Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges
- Title(参考訳): コードジェネレーションLLMによる幻覚:分類学、ベンチマーク、緩和、課題
- Authors: Yunseo Lee, John Youngeun Song, Dongsun Kim, Jindae Kim, Mijung Kim, Jaechang Nam,
- Abstract要約: 大規模言語モデル(LLM)は、ソースコードをスケーラブルに生成できる。
LLMは、誤った、非感覚的で、正当化可能な情報である幻覚を発生させる傾向がある。
本研究では,CodeLLMsによる幻覚に関する最近の研究と技術について検討する。
- 参考スコア(独自算出の注目度): 1.397989121713806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent technical breakthroughs in large language models (LLMs) have enabled them to fluently generate source code. Software developers often leverage both general-purpose and code-specialized LLMs to revise existing code or even generate a whole function from scratch. These capabilities are also beneficial in no-code or low-code contexts, in which one can write programs without a technical background. However, due to their internal design, LLMs are prone to generating hallucinations, which are incorrect, nonsensical, and not justifiable information but difficult to identify its presence. This problem also occurs when generating source code. Once hallucinated code is produced, it is often challenging for users to identify and fix it, especially when such hallucinations can be identified under specific execution paths. As a result, the hallucinated code may remain unnoticed within the codebase. This survey investigates recent studies and techniques relevant to hallucinations generated by CodeLLMs. We categorize the types of hallucinations in the code generated by CodeLLMs, review existing benchmarks and mitigation strategies, and identify open challenges. Based on these findings, this survey outlines further research directions in the detection and removal of hallucinations produced by CodeLLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の技術的ブレークスルーにより、ソースコードを流線型に生成できるようになった。
ソフトウェア開発者は、しばしば、汎用LLMとコード特化LLMの両方を活用して、既存のコードを修正したり、スクラッチから関数全体を生成したりする。
これらの機能は、技術的なバックグラウンドなしにプログラムを書くことができる、ノーコードまたはローコードコンテキストでも有益である。
しかし、その内部設計のため、LLMは不正確で、非感覚的で、正当化できる情報ではないが、その存在を特定するのが難しい幻覚を生成する傾向にある。
この問題は、ソースコードを生成する際にも発生する。
一度幻覚コードを生成すると、特に特定の実行パスの下でこのような幻覚を識別できる場合、ユーザはそれを識別して修正することが困難になることが多い。
結果として、幻覚されたコードはコードベース内で気づかないままである。
本研究では,CodeLLMsによる幻覚に関する最近の研究と技術について検討する。
CodeLLMsによって生成されたコードの幻覚の種類を分類し、既存のベンチマークと緩和戦略をレビューし、オープンな課題を特定します。
これらの知見に基づき,CodeLLMsによる幻覚の検出と除去に関するさらなる研究の方向性について概説した。
関連論文リスト
- Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-13T20:41:47Z) - CodeMirage: Hallucinations in Code Generated by Large Language Models [6.063525456640463]
大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-14T22:53:07Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。
人間書きのコードと同様、LLM生成コードはバグを起こしやすい。
本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文 参考訳(メタデータ) (2024-03-13T20:12:01Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。