Fugu-MT 論文翻訳(概要): Secure or Suspect? Investigating Package Hallucinations of Shell Command in Original and Quantized LLMs

論文の概要: Secure or Suspect? Investigating Package Hallucinations of Shell Command in Original and Quantized LLMs

arxiv url: http://arxiv.org/abs/2512.08213v1
Date: Tue, 09 Dec 2025 03:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-10 22:28:07.79613
Title: Secure or Suspect? Investigating Package Hallucinations of Shell Command in Original and Quantized LLMs
Title（参考訳）: 安全か疑わしいか : オリジナルおよび量子化LDMにおけるシェルコマンドのパッケージ・ハロシン化の調査
Authors: Md Nazmul Haque, Elizabeth Lin, Lawrence Arkoh, Biruk Tadesse, Bowen Xu,
Abstract要約: 我々は,Goパッケージのパッケージ幻覚と脆弱性リスクに対する量子化の影響について,最初の系統的研究を行った。その結果, 量子化はパッケージ幻覚率(PHR)を著しく増加させ, 4ビットモデルが最も深刻な劣化を示すことがわかった。幻覚出力の分析の結果,ほとんどのパッケージは現実的なURLベースのGoモジュールパスに似ていることがわかった。
参考スコア（独自算出の注目度）: 7.21976012124109
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models for code (LLMs4Code) are increasingly used to generate software artifacts, including library and package recommendations in languages such as Go. However, recent evidence shows that LLMs frequently hallucinate package names or generate dependencies containing known security vulnerabilities, posing significant risks to developers and downstream software supply chains. At the same time, quantization has become a widely adopted technique to reduce inference cost and enable deployment of LLMs on resource-constrained environments. Despite its popularity, little is known about how quantization affects the correctness and security of LLM-generated software dependencies while generating shell commands for package installation. In this work, we conduct the first systematic empirical study of the impact of quantization on package hallucination and vulnerability risks in LLM-generated Go packages. We evaluate five Qwen model sizes under full-precision, 8-bit, and 4-bit quantization across three datasets (SO, MBPP, and paraphrase). Our results show that quantization substantially increases the package hallucination rate (PHR), with 4-bit models exhibiting the most severe degradation. We further find that even among the correctly generated packages, the vulnerability presence rate (VPR) rises as precision decreases, indicating elevated security risk in lower-precision models. Finally, our analysis of hallucinated outputs reveals that most fabricated packages resemble realistic URL-based Go module paths, such as most commonly malformed or non-existent GitHub and golang.org repositories, highlighting a systematic pattern in how LLMs hallucinate dependencies. Overall, our findings provide actionable insights into the reliability and security implications of deploying quantized LLMs for code generation and dependency recommendation.
Abstract（参考訳）: コードのための大規模言語モデル(LLMs4Code)は、Goのような言語でライブラリやパッケージレコメンデーションを含むソフトウェアアーチファクトを生成するために、ますます使われています。しかし、最近の証拠は、LLMがしばしばパッケージ名や既知のセキュリティ脆弱性を含む依存関係を幻覚させ、開発者や下流のソフトウェアサプライチェーンに重大なリスクを及ぼすことを示している。同時に、量子化は、推論コストを削減し、資源制約された環境にLLMを展開できるようにするため、広く採用されている技術となっている。その人気にもかかわらず、パッケージインストール用のシェルコマンドを生成しながら、LLM生成したソフトウェア依存関係の正しさとセキュリティに量子化がどのように影響するかはほとんど分かっていない。本研究では,LLM生成したGoパッケージのパッケージ幻覚と脆弱性リスクに対する量子化の影響について,最初の系統的研究を行った。完全精度,8ビット,4ビットの量子化を3つのデータセット(SO,MBPP,パラフレーズ)で行うことで,Qwenモデルのサイズを5つ評価した。その結果, 量子化はパッケージ幻覚率(PHR)を著しく増加させ, 4ビットモデルが最も深刻な劣化を示した。さらに、正しく生成されたパッケージであっても、精度が低下するにつれて脆弱性存在率(VPR)が上昇し、低精度モデルにおけるセキュリティリスクが増大することを示す。最後に、幻覚的なアウトプットの分析から、ほとんどのパッケージは、最も一般的な不正あるいは存在しないGitHubやgolang.orgリポジトリなど、現実的なURLベースのGoモジュールパスに似ており、LLMが依存関係を幻覚させる方法の体系的なパターンを強調している。全体として、コード生成と依存性レコメンデーションのために量子化LDMをデプロイする際の信頼性とセキュリティに関する実用的な洞察を提供する。

関連論文リスト

PackMonitor: Enabling Zero Package Hallucinations Through Decoding-Time Monitoring [14.864903095382937]
本論では,パッケージの有効性は有限かつ有能なパッケージリストを通じて決定可能であるというキーインサイトに基づいて,パッケージの幻覚は理論的に予防可能であると論じる。そこで本研究では,パッケージ幻覚を根本的に排除する最初のアプローチであるPackMonitorを提案する。
論文参考訳（メタデータ） (2026-02-24T09:26:11Z)
Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models [63.54707418559388]
ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
論文参考訳（メタデータ） (2025-11-11T17:25:44Z)
Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs [10.658912369378617]
Scam2Promptは、詐欺サイトの基礎となる意図を特定し、その意図を反映した開発者スタイルのプロンプトを合成するフレームワークである。大規模な調査では、Scam2Promptの無害なプロンプトが4.24%のケースで悪意のあるURL生成を引き起こした。脆弱性は存在するだけでなく、深刻なものであり、悪意のあるコード生成率は12.7%から43.8%であることがわかった。
論文参考訳（メタデータ） (2025-09-02T14:39:25Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文参考訳（メタデータ） (2025-06-30T21:10:19Z)
Importing Phantoms: Measuring LLM Package Hallucination Vulnerabilities [11.868859925111561]
大規模言語モデル(LLM)はプログラマのツールキットに不可欠なツールとなっている。コードを幻覚させる傾向は、悪意あるアクターがソフトウェアサプライチェーンの広い範囲に脆弱性を導入するために利用することができる。
論文参考訳（メタデータ） (2025-01-31T10:26:18Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs [3.515912713354746]
パッケージ幻覚は、大規模な言語モデルを使用してコードを生成する際に、ファクトコンフリクトのエラーから生じる。本稿では,プログラム言語間におけるパッケージ幻覚の厳密かつ包括的評価を行う。幻覚パッケージの平均パーセンテージは、商用モデルでは少なくとも5.2%、オープンソースモデルでは21.7%である。
論文参考訳（メタデータ） (2024-06-12T03:29:06Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。