論文の概要: Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries
- arxiv url: http://arxiv.org/abs/2509.22202v1
- Date: Fri, 26 Sep 2025 11:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.382125
- Title: Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries
- Title(参考訳): LLMにおける図書館の幻覚 : 開発者クエリに基づくリスク分析
- Authors: Lukas Twist, Jie M. Zhang, Mark Harman, Helen Yannakoudakis,
- Abstract要約: 大規模言語モデル(LLM)は、コードを生成するためにますます使われていますが、幻覚を継続し、しばしば存在しないライブラリを発明します。
LLM生成コードのライブラリ幻覚にユーザレベルのプロンプト変動がどう影響するかについて,最初の系統的研究を行った。
ライブラリ名の1文字のミススペルは、最大26%のタスクで幻覚を引き起こし、偽のライブラリ名は最大99%のタスクで受け入れられ、時間関連のプロンプトは最大84%のタスクで幻覚を引き起こす。
- 参考スコア(独自算出の注目度): 14.887647336580544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used to generate code, yet they continue to hallucinate, often inventing non-existent libraries. Such library hallucinations are not just benign errors: they can mislead developers, break builds, and expose systems to supply chain threats such as slopsquatting. Despite increasing awareness of these risks, little is known about how real-world prompt variations affect hallucination rates. Therefore, we present the first systematic study of how user-level prompt variations impact library hallucinations in LLM-generated code. We evaluate six diverse LLMs across two hallucination types: library name hallucinations (invalid imports) and library member hallucinations (invalid calls from valid libraries). We investigate how realistic user language extracted from developer forums and how user errors of varying degrees (one- or multi-character misspellings and completely fake names/members) affect LLM hallucination rates. Our findings reveal systemic vulnerabilities: one-character misspellings in library names trigger hallucinations in up to 26% of tasks, fake library names are accepted in up to 99% of tasks, and time-related prompts lead to hallucinations in up to 84% of tasks. Prompt engineering shows promise for mitigating hallucinations, but remains inconsistent and LLM-dependent. Our results underscore the fragility of LLMs to natural prompt variation and highlight the urgent need for safeguards against library-related hallucinations and their potential exploitation.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、コードを生成するためにますます使われていますが、幻覚を継続し、しばしば存在しないライブラリを発明します。
開発者を誤解させ、ビルドを壊し、slopsquattingのようなチェーン脅威を供給するシステムを公開することができる。
これらのリスクに対する認識が高まる一方で、現実世界の急激な変化が幻覚率に与える影響についてはほとんど分かっていない。
そこで本研究では,LLM生成コードにおけるユーザレベルのプロンプト変動が図書館の幻覚に与える影響について,最初の系統的研究を行った。
図書館名幻覚(無効輸入)と図書館会員幻覚(有効図書館からの無効呼出)の2種類の幻覚型にまたがる6種類のLCMを評価した。
開発者フォーラムから抽出した現実的なユーザ言語と、異なるレベルのユーザエラー(1文字または複数文字のミススペルと完全に偽名/メンバー)がLLM幻覚率にどのように影響するかを検討する。
図書館名の1文字ミススペルは最大26%のタスクで幻覚を引き起こし、偽の図書館名は最大99%のタスクで受け入れられ、時間関連のプロンプトは最大84%のタスクで幻覚を引き起こす。
プロンプト工学は幻覚の緩和を約束するが、矛盾し、LLMに依存している。
本研究は, LLMの脆弱性を自然発散に活かし, 図書館関連幻覚に対する緊急対策の必要性と今後の活用の可能性を強調した。
関連論文リスト
- Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。
この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。
CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries [64.239202960816]
事実性を評価するベンチマークであるWildHallucinationsを紹介する。
それは、大きな言語モデルに、ユーザーとチャットボットの会話から抽出されたエンティティに関する情報を生成するよう促すことによって実現している。
我々は15個のLDMから7,919個のエンティティ上で118,785世代を評価した。
論文 参考訳(メタデータ) (2024-07-24T17:59:05Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。