論文の概要: Exploring and Evaluating Hallucinations in LLM-Powered Code Generation
- arxiv url: http://arxiv.org/abs/2404.00971v2
- Date: Sat, 11 May 2024 02:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 23:44:37.786865
- Title: Exploring and Evaluating Hallucinations in LLM-Powered Code Generation
- Title(参考訳): LLMを用いたコード生成における幻覚の探索と評価
- Authors: Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang, Zhen Yang, Li Zhang, Zhongqi Li, Yuchi Ma,
- Abstract要約: LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
- 参考スコア(独自算出の注目度): 14.438161741833687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of Large Language Models (LLMs) has significantly advanced many applications on software engineering tasks, particularly in code generation. Despite the promising performance, LLMs are prone to generate hallucinations, which means LLMs might produce outputs that deviate from users' intent, exhibit internal inconsistencies, or misalign with the factual knowledge, making the deployment of LLMs potentially risky in a wide range of applications. Existing work mainly focuses on investing the hallucination in the domain of natural language generation (NLG), leaving a gap in understanding the types and extent of hallucinations in the context of code generation. To bridge the gap, we conducted a thematic analysis of the LLM-generated code to summarize and categorize the hallucinations present in it. Our study established a comprehensive taxonomy of hallucinations in LLM-generated code, encompassing 5 primary categories of hallucinations depending on the conflicting objectives and varying degrees of deviation observed in code generation. Furthermore, we systematically analyzed the distribution of hallucinations, exploring variations among different LLMs and their correlation with code correctness. Based on the results, we proposed HalluCode, a benchmark for evaluating the performance of code LLMs in recognizing hallucinations. Hallucination recognition and mitigation experiments with HalluCode and HumanEval show existing LLMs face great challenges in recognizing hallucinations, particularly in identifying their types, and are hardly able to mitigate hallucinations. We believe our findings will shed light on future research about hallucination evaluation, detection, and mitigation, ultimately paving the way for building more effective and reliable code LLMs in the future.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、特にコード生成において、ソフトウェア工学のタスクにおける多くのアプリケーションを大幅に進歩させてきた。
有望な性能にもかかわらず、LLMは幻覚を発生させる傾向があり、つまり、LCMはユーザーの意図から逸脱した出力を生成したり、内部の矛盾を示したり、事実の知識と不一致を示したりし、LSMの展開を広範囲のアプリケーションで危険に晒す可能性がある。
既存の研究は、主に自然言語生成(NLG)分野における幻覚の投資に重点を置いており、コード生成の文脈における幻覚のタイプと範囲を理解することのギャップを残している。
このギャップを埋めるために,LLM生成コードのテーマ解析を行い,その中に存在する幻覚を要約し分類した。
本研究は,LLM生成コードにおける幻覚の包括的分類を確立した。
さらに,幻覚の分布を系統的に解析し,異なるLLM間の変動とコード正しさとの相関について検討した。
この結果をもとに,幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案した。
HalluCodeとHumanEvalによる幻覚認識と緩和実験は、既存のLLMが幻覚を認識する上で大きな課題に直面していることを示している。
我々の発見は、幻覚の評価、検出、緩和に関する将来の研究に光を当て、最終的には、より効果的で信頼性の高いLCMを構築するための道を開くだろうと信じています。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-13T20:41:47Z) - LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation [33.46342144822026]
コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。
最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。
有望な性能にもかかわらず、LLMは、特にコード生成のシナリオにおいて、幻覚を伴うコンテンツを生成することが多い。
論文 参考訳(メタデータ) (2024-09-30T17:51:15Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。