論文の概要: We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs
- arxiv url: http://arxiv.org/abs/2406.10279v1
- Date: Wed, 12 Jun 2024 03:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:21:32.616780
- Title: We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs
- Title(参考訳): LLMのコード生成によるパッケージ幻覚の包括的解析
- Authors: Joseph Spracklen, Raveen Wijewickrama, A H M Nazmus Sakib, Anindya Maiti, Murtuza Jadliwala,
- Abstract要約: 大規模言語モデル(LLM)を用いたコード生成におけるファクトコンプレッションエラーによるパッケージ幻覚
本稿では,プログラム言語間のパッケージ幻覚を厳密かつ包括的に評価し,データセットのプロンプトを行う。
その結果,全LLMの19.7%が幻覚的であり,205,474種類の幻覚的パッケージ名が含まれていることがわかった。
- 参考スコア(独自算出の注目度): 2.114013890646406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The reliance of popular programming languages such as Python and JavaScript on centralized package repositories and open-source software, combined with the emergence of code-generating Large Language Models (LLMs), has created a new type of threat to the software supply chain: package hallucinations. These hallucinations, which arise from fact-conflicting errors when generating code using LLMs, represent a novel form of package confusion attack that poses a critical threat to the integrity of the software supply chain. This paper conducts a rigorous and comprehensive evaluation of package hallucinations across different programming languages, settings, and parameters, exploring how different configurations of LLMs affect the likelihood of generating erroneous package recommendations and identifying the root causes of this phenomena. Using 16 different popular code generation models, across two programming languages and two unique prompt datasets, we collect 576,000 code samples which we analyze for package hallucinations. Our findings reveal that 19.7% of generated packages across all the tested LLMs are hallucinated, including a staggering 205,474 unique examples of hallucinated package names, further underscoring the severity and pervasiveness of this threat. We also implemented and evaluated mitigation strategies based on Retrieval Augmented Generation (RAG), self-detected feedback, and supervised fine-tuning. These techniques demonstrably reduced package hallucinations, with hallucination rates for one model dropping below 3%. While the mitigation efforts were effective in reducing hallucination rates, our study reveals that package hallucinations are a systemic and persistent phenomenon that pose a significant challenge for code generating LLMs.
- Abstract(参考訳): PythonやJavaScriptのような人気のあるプログラミング言語が、中央集権的なパッケージリポジトリやオープンソースソフトウェアに依存していることと、コード生成の大規模言語モデル(LLM)の出現が組み合わさって、ソフトウェアサプライチェーンに対する新たなタイプの脅威、すなわちパッケージ幻覚を生み出した。
これらの幻覚は、LCMを使ってコードを生成する際に、事実に紛らわしいエラーから生じるもので、ソフトウェアサプライチェーンの整合性に重大な脅威をもたらす、新しい形のパッケージ混乱攻撃を表している。
本稿では,異なるプログラミング言語,設定,パラメータ間でパッケージの幻覚を厳密かつ包括的に評価し,LLMの異なる構成が誤ってパッケージのレコメンデーションを生成し,この現象の根本原因を特定する可能性について検討する。
2つのプログラミング言語と2つのユニークなプロンプトデータセットにまたがる16種類の人気コード生成モデルを使用して、576,000のコードサンプルを収集し、パッケージの幻覚を解析します。
その結果,全LSMで発生したパッケージの19.7%が幻覚的であり,205,474件の幻覚的パッケージ名の特異な例が報告されている。
また,RAG(Retrieval Augmented Generation)に基づく緩和戦略,自己検出フィードバック,教師付き微調整を実施・評価した。
これらの手法により、パッケージの幻覚は明らかに減少し、1モデルでの幻覚率は3%以下に低下した。
緩和努力は幻覚率の低減に有効であったが,本研究では,パッケージ幻覚は体系的かつ永続的な現象であり,LLMを生成する上で重要な課題であることを明らかにした。
関連論文リスト
- Code Hallucination [0.07366405857677226]
コード幻覚にはいくつかの種類がある。
大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。
任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。
論文 参考訳(メタデータ) (2024-07-05T19:37:37Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。