論文の概要: A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI
- arxiv url: http://arxiv.org/abs/2511.00776v1
- Date: Sun, 02 Nov 2025 02:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.928319
- Title: A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI
- Title(参考訳): LLMにおけるコード幻覚の体系的文献レビュー:信頼性の高いAIのための特徴、緩和方法、課題、今後の方向性
- Authors: Cuiyun Gao, Guodong Fan, Chun Yong Chong, Shizhan Chen, Chao Liu, David Lo, Zibin Zheng, Qing Liao,
- Abstract要約: 大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
- 参考スコア(独自算出の注目度): 54.34738767990601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model hallucination is one of the most critical challenges faced by Large Language Models (LLMs), especially in high-stakes code intelligence tasks. As LLMs become increasingly integrated into software engineering tasks, understanding and mitigating hallucination in code becomes essential. In this survey, we provide a systematic review of hallucination phenomena in code-oriented LLMs from four key perspectives. First, we begin by surveying 60 papers to define hallucination in the context of code and summarize its primary causes, such as data noise, exposure bias, and insufficient semantic grounding, while also tracing recent trends in literature across natural language processing (NLP) and software engineering communities. Second, we review model hallucination surveys in a broader span and summarize representative hallucination mitigation strategies, such as knowledge-enhanced generation, constrained decoding, and post-editing. Third, we review approaches targeted for code intelligence and highlight code-specific challenges that aggravate hallucination, including syntax sensitivity, strict type systems, and dependence on external libraries. Meanwhile, we analyze how emerging code intelligence tasks, e.g., program analysis, symbolic execution, and unit testing, are utilized to detect and mitigate hallucinations. Fourth, we summarize current evaluation benchmarks, ranging from static metrics to dynamic checks, e.g., compilation and execution correctness, and emphasize the need for hallucination-oriented benchmarks.
- Abstract(参考訳): モデル幻覚は、特に高精細なコードインテリジェンスタスクにおいて、LLM(Large Language Models)が直面する最も重要な課題の1つである。
LLMがソフトウェアエンジニアリングタスクに統合されるにつれて、コードの幻覚の理解と緩和が不可欠になる。
本研究では,コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
まず、コードの文脈で幻覚を定義する60の論文を調査し、その主な原因、例えば、データノイズ、露出バイアス、セマンティックグラウンドティングの欠如などについて要約し、また、自然言語処理(NLP)やソフトウェア工学コミュニティにわたる最近の文献の傾向を追究する。
第2に,より広い範囲でのモデル幻覚調査をレビューし,知識強化世代,制約付き復号化,後編集などの代表的な幻覚緩和戦略を要約する。
第三に、コードインテリジェンスをターゲットにしたアプローチをレビューし、構文の感度、厳密な型システム、外部ライブラリへの依存など、幻覚を増進するコード固有の課題を強調します。
一方,プログラム解析や記号実行,単体テストといった新しいコードインテリジェンスタスクが,幻覚の検出と緩和にどのように利用されるかを分析する。
第4に、静的なメトリクスから動的チェック、例えば、コンパイルと実行の正確性まで、現在の評価ベンチマークを要約し、幻覚指向ベンチマークの必要性を強調します。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-13T20:41:47Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。