Fugu-MT 論文翻訳(概要): HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing

論文の概要: HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing

arxiv url: http://arxiv.org/abs/2509.23835v2
Date: Sat, 04 Oct 2025 05:29:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:10.87102
Title: HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing
Title（参考訳）: HFuzzer: フレーズベースのファジングによるパッケージ幻覚のための大規模言語モデルテスト
Authors: Yukai Zhao, Menghan Wu, Xing Hu, Xin Xia,
Abstract要約: 大規模言語モデル(LLM)はコード生成に広く使用されているが、実用製品に適用した場合、重大なセキュリティリスクに直面している。パッケージ幻覚に対するLLMのテストは、パッケージ幻覚を緩和し、潜在的な攻撃に対して防御するために重要である。パッケージ幻覚のためのLLMをテストするための新しいフレーズベースのファジリングフレームワークであるHFUZZERを提案する。
参考スコア（独自算出の注目度）: 8.667234284704655
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) are widely used for code generation, but they face critical security risks when applied to practical production due to package hallucinations, in which LLMs recommend non-existent packages. These hallucinations can be exploited in software supply chain attacks, where malicious attackers exploit them to register harmful packages. It is critical to test LLMs for package hallucinations to mitigate package hallucinations and defend against potential attacks. Although researchers have proposed testing frameworks for fact-conflicting hallucinations in natural language generation, there is a lack of research on package hallucinations. To fill this gap, we propose HFUZZER, a novel phrase-based fuzzing framework to test LLMs for package hallucinations. HFUZZER adopts fuzzing technology and guides the model to infer a wider range of reasonable information based on phrases, thereby generating enough and diverse coding tasks. Furthermore, HFUZZER extracts phrases from package information or coding tasks to ensure the relevance of phrases and code, thereby improving the relevance of generated tasks and code. We evaluate HFUZZER on multiple LLMs and find that it triggers package hallucinations across all selected models. Compared to the mutational fuzzing framework, HFUZZER identifies 2.60x more unique hallucinated packages and generates more diverse tasks. Additionally, when testing the model GPT-4o, HFUZZER finds 46 unique hallucinated packages. Further analysis reveals that for GPT-4o, LLMs exhibit package hallucinations not only during code generation but also when assisting with environment configuration.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成に広く使用されているが、LLMが既存のパッケージを推奨するパッケージ幻覚のために実用的生産に適用する場合、重大なセキュリティリスクに直面している。これらの幻覚は、悪意のある攻撃者が悪質なパッケージを登録するためにそれらを悪用するソフトウェアサプライチェーン攻撃で悪用することができる。パッケージ幻覚に対するLLMのテストは、パッケージ幻覚を緩和し、潜在的な攻撃に対して防御するために重要である。研究者らは、自然言語生成における事実にこだわる幻覚のテストフレームワークを提案しているが、パッケージ幻覚の研究は乏しい。このギャップを埋めるために、パッケージ幻覚のためのLLMをテストする新しいフレーズベースのファジリングフレームワークであるHFUZERを提案する。 HFUZERはファジィング技術を採用し、フレーズに基づいてより広い範囲の合理的な情報を推論し、十分な多様なコーディングタスクを生成する。さらに、HFUZERは、パッケージ情報やコーディングタスクからフレーズを抽出して、フレーズやコードの関連性を確保することにより、生成されたタスクやコードの関連性を改善する。複数のLLM上でHFUZZERを評価し,選択したモデルに対してパッケージ幻覚を引き起こすことを発見した。 HFUZERは突然変異ファジリングフレームワークと比較して、2.60倍ユニークな幻覚パッケージを特定し、より多様なタスクを生成する。さらに、モデルGPT-4oをテストすると、HFUZERは46のユニークな幻覚パッケージを見つける。さらに分析した結果, GPT-4oでは, LLMはコード生成時だけでなく, 環境設定支援時にもパッケージ幻覚を示すことがわかった。

論文の概要: HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing

関連論文リスト