論文の概要: The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort
- arxiv url: http://arxiv.org/abs/2605.17062v1
- Date: Sat, 16 May 2026 16:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.347176
- Title: The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort
- Title(参考訳): 2026年のFrontier-ModelコホートにおけるLSMパッケージ幻覚の再評価
- Authors: Aleksandr Churilov,
- Abstract要約: Spracklenらは、コード生成された大きな言語モデルは、PyPIやnpmに存在しないパッケージ名を幻覚させることを示した。
199,845対のPythonとJavaScriptプロンプトの幻覚率を測定し、PyPIとnpmマスターリストに対して検証した。
127個のパッケージ名(PyPIは109個,npmは18個)を5つの評価モデルで同一に作成する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spracklen et al. (USENIX Security '25) showed that code-generating large language models hallucinate package names that do not exist on PyPI or npm at rates ranging from 5.2% on commercial models to 21.7% on open-source models, creating an attack surface for slopsquatting -- the registration of malicious packages under hallucinated names. We replicate their methodology on five frontier code-capable LLMs released between October 2025 and March 2026: Claude Sonnet 4.6, Claude Haiku 4.5, GPT-5.4-mini, Gemini 2.5 Pro, and DeepSeek V3.2. Across 199,845 paired Python and JavaScript prompts validated against PyPI and npm master lists, we measure overall hallucination rates between 4.62% (Claude Haiku 4.5) and 6.10% (GPT-5.4-mini) -- an order-of-magnitude compression of the inter-model spread observed by Spracklen, but not a retirement of the threat. Beyond replication, we identify a set of 127 package names (109 on PyPI, 18 on npm) that all five evaluated models invent identically, constituting a model-agnostic supply-chain attack surface that no single-model study can reveal. We further document a Python-over-JavaScript hallucination asymmetry that inverts Spracklen's 2024 finding, identify a Haiku-below-Sonnet inversion within the Anthropic family, and observe a Jaccard-similarity peak between DeepSeek V3.2 and GPT-5.4-mini (J = 0.343) suggestive of shared training-data origins.
- Abstract(参考訳): Spracklen et al (USENIX Security '25) は、大規模な言語モデルをコード生成することで、商用モデルでは5.2%からオープンソースモデルでは21.7%まで、PyPIやnpmに存在しないパッケージ名を幻覚させることを示した。
2025年10月から2026年3月までにリリースされた5つのフロンティアコード対応LLM(Claude Sonnet 4.6、Claude Haiku 4.5、GPT-5.4-mini、Gemini 2.5 Pro、DeepSeek V3.2)で方法論を再現する。
199,845組のPythonとJavaScriptのプロンプトがPyPIとnpmマスターリストに対して検証され、全体的な幻覚率を4.62%(Claude Haiku 4.5)から6.10%(GPT-5.4-mini)で測定する。
複製以外にも、5つの評価されたモデルが同一に発明した127のパッケージ名(PyPIでは109、npmでは18)を同定し、モデルに依存しないサプライチェーンアタックサーフェスを構成する。
さらに、スプラッレンの2024年の発見を逆転させるPython-over-JavaScript幻覚非対称性を文書化し、アントロピック家のHaiku-below-Sonnetの逆転を同定し、DeepSeek V3.2とGPT-5.4-mini(J = 0.343)のジャカード類似ピークを観察する。
関連論文リスト
- How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages [3.7667883869699597]
PyPIのようなオープンソースリポジトリの悪意のあるコードは、ソフトウェアサプライチェーンに対する脅威が増大している。
本稿では,悪質なPyPIパッケージを検出するために協調言語モデルを用いたマルチエージェントシステムであるLAMPSを提案する。
論文 参考訳(メタデータ) (2026-01-17T19:43:22Z) - AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline [2.1787849426740364]
我々は5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100台のHugging Faceモデルカードからドキュメントを分析した。
安全クリティカルな開示を優先する8つのセクションと23のサブセクションからなる重み付き透明性フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-13T19:48:44Z) - How Deep Does Your Dependency Tree Go? An Empirical Study of Dependency Amplification Across 10 Package Ecosystems [0.0]
Maven、npm Registry、RubyGems、Go Modules、PyPI、CocoaPods、Pubを含む10の主要なエコシステムにわたる500のプロジェクトを調査します。
我々は45対比較のうち22対において大きな効果サイズに有意な差が見られ、npmが最も増幅率が高いという仮定に挑戦する。
この結果から,Maven環境のシステマティック監査,npmおよびRubyGemsのアウトレイラ検出,制御増幅によるエコシステムの現在のプラクティスの継続など,エコシステム固有のセキュリティ戦略の採用が示唆された。
論文 参考訳(メタデータ) (2025-12-12T05:53:32Z) - We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs [3.515912713354746]
パッケージ幻覚は、大規模な言語モデルを使用してコードを生成する際に、ファクトコンフリクトのエラーから生じる。
本稿では,プログラム言語間におけるパッケージ幻覚の厳密かつ包括的評価を行う。
幻覚パッケージの平均パーセンテージは、商用モデルでは少なくとも5.2%、オープンソースモデルでは21.7%である。
論文 参考訳(メタデータ) (2024-06-12T03:29:06Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。