論文の概要: HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing
- arxiv url: http://arxiv.org/abs/2509.23835v2
- Date: Sat, 04 Oct 2025 05:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.87102
- Title: HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing
- Title(参考訳): HFuzzer: フレーズベースのファジングによるパッケージ幻覚のための大規模言語モデルテスト
- Authors: Yukai Zhao, Menghan Wu, Xing Hu, Xin Xia,
- Abstract要約: 大規模言語モデル(LLM)はコード生成に広く使用されているが、実用製品に適用した場合、重大なセキュリティリスクに直面している。
パッケージ幻覚に対するLLMのテストは、パッケージ幻覚を緩和し、潜在的な攻撃に対して防御するために重要である。
パッケージ幻覚のためのLLMをテストするための新しいフレーズベースのファジリングフレームワークであるHFUZZERを提案する。
- 参考スコア(独自算出の注目度): 8.667234284704655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are widely used for code generation, but they face critical security risks when applied to practical production due to package hallucinations, in which LLMs recommend non-existent packages. These hallucinations can be exploited in software supply chain attacks, where malicious attackers exploit them to register harmful packages. It is critical to test LLMs for package hallucinations to mitigate package hallucinations and defend against potential attacks. Although researchers have proposed testing frameworks for fact-conflicting hallucinations in natural language generation, there is a lack of research on package hallucinations. To fill this gap, we propose HFUZZER, a novel phrase-based fuzzing framework to test LLMs for package hallucinations. HFUZZER adopts fuzzing technology and guides the model to infer a wider range of reasonable information based on phrases, thereby generating enough and diverse coding tasks. Furthermore, HFUZZER extracts phrases from package information or coding tasks to ensure the relevance of phrases and code, thereby improving the relevance of generated tasks and code. We evaluate HFUZZER on multiple LLMs and find that it triggers package hallucinations across all selected models. Compared to the mutational fuzzing framework, HFUZZER identifies 2.60x more unique hallucinated packages and generates more diverse tasks. Additionally, when testing the model GPT-4o, HFUZZER finds 46 unique hallucinated packages. Further analysis reveals that for GPT-4o, LLMs exhibit package hallucinations not only during code generation but also when assisting with environment configuration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成に広く使用されているが、LLMが既存のパッケージを推奨するパッケージ幻覚のために実用的生産に適用する場合、重大なセキュリティリスクに直面している。
これらの幻覚は、悪意のある攻撃者が悪質なパッケージを登録するためにそれらを悪用するソフトウェアサプライチェーン攻撃で悪用することができる。
パッケージ幻覚に対するLLMのテストは、パッケージ幻覚を緩和し、潜在的な攻撃に対して防御するために重要である。
研究者らは、自然言語生成における事実にこだわる幻覚のテストフレームワークを提案しているが、パッケージ幻覚の研究は乏しい。
このギャップを埋めるために、パッケージ幻覚のためのLLMをテストする新しいフレーズベースのファジリングフレームワークであるHFUZERを提案する。
HFUZERはファジィング技術を採用し、フレーズに基づいてより広い範囲の合理的な情報を推論し、十分な多様なコーディングタスクを生成する。
さらに、HFUZERは、パッケージ情報やコーディングタスクからフレーズを抽出して、フレーズやコードの関連性を確保することにより、生成されたタスクやコードの関連性を改善する。
複数のLLM上でHFUZZERを評価し,選択したモデルに対してパッケージ幻覚を引き起こすことを発見した。
HFUZERは突然変異ファジリングフレームワークと比較して、2.60倍ユニークな幻覚パッケージを特定し、より多様なタスクを生成する。
さらに、モデルGPT-4oをテストすると、HFUZERは46のユニークな幻覚パッケージを見つける。
さらに分析した結果, GPT-4oでは, LLMはコード生成時だけでなく, 環境設定支援時にもパッケージ幻覚を示すことがわかった。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Importing Phantoms: Measuring LLM Package Hallucination Vulnerabilities [11.868859925111561]
大規模言語モデル(LLM)はプログラマのツールキットに不可欠なツールとなっている。
コードを幻覚させる傾向は、悪意あるアクターがソフトウェアサプライチェーンの広い範囲に脆弱性を導入するために利用することができる。
論文 参考訳(メタデータ) (2025-01-31T10:26:18Z) - CodeMirage: Hallucinations in Code Generated by Large Language Models [6.063525456640463]
大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-14T22:53:07Z) - We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs [3.515912713354746]
パッケージ幻覚は、大規模な言語モデルを使用してコードを生成する際に、ファクトコンフリクトのエラーから生じる。
本稿では,プログラム言語間におけるパッケージ幻覚の厳密かつ包括的評価を行う。
幻覚パッケージの平均パーセンテージは、商用モデルでは少なくとも5.2%、オープンソースモデルでは21.7%である。
論文 参考訳(メタデータ) (2024-06-12T03:29:06Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。