論文の概要: Understanding Large Language Model Supply Chain: Structure, Domain, and Vulnerabilities
- arxiv url: http://arxiv.org/abs/2504.20763v1
- Date: Tue, 29 Apr 2025 13:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.911017
- Title: Understanding Large Language Model Supply Chain: Structure, Domain, and Vulnerabilities
- Title(参考訳): 大規模言語モデルのサプライチェーンを理解する:構造、ドメイン、脆弱性
- Authors: Yanzhe Hu, Shenao Wang, Tianyuan Nie, Yanjie Zhao, Haoyu Wang,
- Abstract要約: 大規模言語モデル(LLM)は人工知能(AI)に革命をもたらし、自然言語理解、テキスト生成、自律システムにおけるブレークスルーを導いている。
重要な重要性にもかかわらず、LLMSC (Large Language Model supply Chain) はいまだに未調査である。
PyPIとNPMのオープンソースパッケージのキュレートされたデータセットを14の機能ドメインで分析する。
- 参考スコア(独自算出の注目度): 4.835306415626808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized artificial intelligence (AI), driving breakthroughs in natural language understanding, text generation, and autonomous systems. However, the rapid growth of LLMs presents significant challenges in the security and reliability of the Large Language Model Supply Chain (LLMSC), a complex network of open-source components, libraries, and tools essential for LLM development and deployment. Despite its critical importance, the LLMSC remains underexplored, particularly regarding its structural characteristics, domain composition, and security vulnerabilities. To address this gap, we conduct the first empirical study of the LLMSC, analyzing a curated dataset of open-source packages from PyPI and NPM across 14 functional domains. We construct a directed dependency graph comprising 15,725 nodes, 10,402 edges, and 180 unique vulnerabilities to investigate the structural characteristics of the LLMSC and analyze how security risks propagate through its dependency network. Our findings reveal that the LLMSC exhibits a ``locally dense, globally sparse'' topology, with 79.7% of dependency trees containing fewer than 5 nodes, while a few large trees dominate the ecosystem, accounting for 77.66% of all nodes. The graph is characterized by high-degree hubs, with the top 5 most connected nodes averaging 1,282 dependents each. Security analysis shows that critical vulnerabilities propagate to an average of 142.1 nodes at the second layer of dependency trees and peak at 237.8 affected nodes at the third layer. Notably, cascading risks are concentrated in critical hub nodes such as transformers, which directly or indirectly affect over 1,300 downstream packages. These findings provide quantitative insights into the structural and security dynamics of the LLMSC and emphasize the need for targeted mitigation strategies to enhance ecosystem resilience.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能(AI)に革命をもたらし、自然言語理解、テキスト生成、自律システムにおけるブレークスルーを導いている。
しかし、LLMの急速な成長は、LLMSC(Large Language Model supply Chain)のセキュリティと信頼性において大きな課題をもたらしている。
重要な重要性にもかかわらず、LLMSCは、その構造的特徴、ドメイン構成、セキュリティ上の脆弱性について、未調査のままである。
このギャップに対処するため,14個の機能ドメインにわたるPyPIとNPMのオープンソースパッケージのキュレートされたデータセットを解析し,LLMSCの実証的研究を行った。
15,725個のノード,10,402個のエッジ,180個のユニークな脆弱性からなる依存性グラフを構築し,LCMSCの構造的特性を調査し,その依存性ネットワークを通じてセキュリティリスクがどのように伝播するかを分析する。
LLMSCは「局所的に密度が高く、グローバルなスパース」なトポロジーを示し、79.7%の依存性木は5ノード未満であり、またいくつかの大きな木が生態系を支配しており、全ノードの77.66%を占めている。
このグラフは高次ハブが特徴で、最も接続されたノードのトップ5はそれぞれ1,282依存している。
セキュリティ分析によると、重要な脆弱性は、依存性ツリーの第2層の平均142.1ノードに伝播し、第3層の237.8ノードがピークとなる。
特に、カスケードリスクはトランスフォーマーのような重要なハブノードに集中しており、直接的または間接的に1,300以上の下流パッケージに影響を与える。
これらの知見は, LLMSCの構造とセキュリティのダイナミクスを定量的に把握し, 生態系の回復力を高めるための目標緩和戦略の必要性を強調した。
関連論文リスト
- Decoding Dependency Risks: A Quantitative Study of Vulnerabilities in the Maven Ecosystem [1.5499426028105905]
本研究では,Mavenエコシステム内の脆弱性を調査し,14,459,139リリースの包括的なデータセットを分析した。
Maven特有のリスクのある弱点を示し、時間が経つにつれてますます危険なものになっていることを強調します。
以上の結果から,入力の不適切な処理や資源の不正管理が最もリスクが高いことが示唆された。
論文 参考訳(メタデータ) (2025-03-28T04:16:46Z) - Enhancing Cybersecurity in Critical Infrastructure with LLM-Assisted Explainable IoT Systems [0.22369578015657962]
本稿では,オートエンコーダを用いた数値異常検出とLarge Language Models(LLM)を併用して,事前処理と解釈性を向上するハイブリッドフレームワークを提案する。
KDDCup99 10%補正データセットの実験結果から,LLM支援前処理パイプラインは異常検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-03-05T04:53:07Z) - SoK: Understanding Vulnerabilities in the Large Language Model Supply Chain [8.581429744090316]
この研究は、13のライフサイクルステージにまたがる75の著名なプロジェクトにわたって報告された529の脆弱性を体系的に分析する。
その結果、脆弱性はアプリケーション(50.3%)とモデル(42.7%)に集中していることがわかった。
脆弱性の56.7%が修正されているが、これらのパッチの8%は効果がなく、繰り返し脆弱性が発生する。
論文 参考訳(メタデータ) (2025-02-18T03:22:38Z) - VulRG: Multi-Level Explainable Vulnerability Patch Ranking for Complex Systems Using Graphs [20.407534993667607]
この作業では、脆弱性パッチの優先順位付けのためのグラフベースのフレームワークを導入している。
多様なデータソースとメトリクスを普遍的に適用可能なモデルに統合する。
洗練されたリスクメトリクスは、コンポーネント、アセット、システムレベルの詳細な評価を可能にします。
論文 参考訳(メタデータ) (2025-02-16T14:21:52Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
本稿では,リレーショナルデータベースの特徴を捉えた新しいGNNフレームワークであるRelGNNを紹介する。
我々のアプローチの核となるのは、高次三部構造を形成するノードの列である原子経路の導入である。
RelGNNは、最先端の精度を最大25%改善して一貫して達成している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - LasUIE: Unifying Information Extraction with Latent Adaptive
Structure-aware Generative Language Model [96.889634747943]
全ての典型的な情報抽出タスク(UIE)を1つの生成言語モデル(GLM)で普遍的にモデル化し、大きな可能性を明らかにした。
UIE のための構文知識のパワーを完全に解放する構造対応 GLM を提案する。
7つのタスクにわたるIEベンチマークが12以上あり、私たちのシステムはベースラインのUIEシステムよりも大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2023-04-13T04:01:14Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - GraNet: Global Relation-aware Attentional Network for ALS Point Cloud
Classification [7.734726150561088]
ALS点群のセマンティックラベリングに着目した新しいニューラルネットワークを提案する。
GraNetは局所幾何学的記述と局所依存性を学習する。
2つのALSポイントクラウドデータセット上で実験を行った。
論文 参考訳(メタデータ) (2020-12-24T23:54:45Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - On the use of local structural properties for improving the efficiency
of hierarchical community detection methods [77.34726150561087]
本研究では,階層型コミュニティ検出の効率向上のために,局所構造ネットワーク特性をプロキシとして利用する方法について検討する。
また,ネットワークプルーニングの性能への影響を,階層的コミュニティ検出をより効率的にするための補助的手法として検証する。
論文 参考訳(メタデータ) (2020-09-15T00:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。