論文の概要: Hidden Licensing Risks in the LLMware Ecosystem
- arxiv url: http://arxiv.org/abs/2602.10758v1
- Date: Wed, 11 Feb 2026 11:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.834944
- Title: Hidden Licensing Risks in the LLMware Ecosystem
- Title(参考訳): LLMwareエコシステムにおける隠れライセンスリスク
- Authors: Bo Wang, Yueyang Chen, Jieke Shi, Minghui Li, Yunbo Lyu, Yinan Wu, Youfang Lin, Zhou Yang,
- Abstract要約: 大規模言語モデル(LLM)はソフトウェアシステムに統合され、LSMwareと呼ばれる新しい種類のシステムを生み出している。
エコシステムレベルのライセンス互換性分析のためのエージェントフレームワークであるLiAgentを提案する。
我々はLiAgentが検出した60の非互換性問題を報告し、そのうち11は開発者によって確認されている。
- 参考スコア(独自算出の注目度): 27.60333806088992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into software systems, giving rise to a new class of systems referred to as LLMware. Beyond traditional source-code components, LLMware embeds or interacts with LLMs that depend on other models and datasets, forming complex supply chains across open-source software (OSS), models, and datasets. However, licensing issues emerging from these intertwined dependencies remain largely unexplored. Leveraging GitHub and Hugging Face, we curate a large-scale dataset capturing LLMware supply chains, including 12,180 OSS repositories, 3,988 LLMs, and 708 datasets. Our analysis reveals that license distributions in LLMware differ substantially from traditional OSS ecosystems. We further examine license-related discussions and find that license selection and maintenance are the dominant concerns, accounting for 84% of cases. To understand incompatibility risks, we analyze license conflicts along supply chains and evaluate state-of-the-art detection approaches, which achieve only 58% and 76% F1 scores in this setting. Motivated by these limitations, we propose LiAgent, an LLM-based agent framework for ecosystem-level license compatibility analysis. LiAgent achieves an F1 score of 87%, improving performance by 14 percentage points over prior methods. We reported 60 incompatibility issues detected by LiAgent, 11 of which have been confirmed by developers. Notably, two conflicted LLMs have over 107 million and 5 million downloads on Hugging Face, respectively, indicating potentially widespread downstream impact. We conclude with implications and recommendations to support the sustainable growth of the LLMware ecosystem.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェアシステムに統合され、LSMwareと呼ばれる新しい種類のシステムを生み出している。
従来のソースコードコンポーネント以外にも、LLMwareは、他のモデルやデータセットに依存するLCMを組み込み、あるいは相互作用し、オープンソースソフトウェア(OSS)、モデル、データセットにまたがる複雑なサプライチェーンを形成する。
しかし、これらの相互依存関係から生じるライセンスの問題はほとんど未解決のままである。
GitHubとHugging Faceを活用して、12,180のOSSリポジトリ、3,988のLMM、708のデータセットを含む、LLMwareサプライチェーンをキャプチャする大規模なデータセットをキュレートします。
LLMware のライセンス分布は従来のOSS エコシステムと大きく異なる。
さらにライセンスに関する議論を調査し、ライセンス選択とメンテナンスが主要な関心事であり、ケースの84%を占めています。
不整合性リスクを理解するため、我々はサプライチェーンに沿ったライセンス紛争を分析し、最先端の検出アプローチを評価し、この設定では58%と76%のF1スコアしか達成できない。
この制限により,生態系レベルのライセンス互換性解析のための LLM ベースのエージェントフレームワークである LiAgent が提案される。
LiAgentはF1スコアの87%を獲得し、以前の方法よりも14ポイント向上した。
LiAgentが検出した60の非互換性問題を報告した。
特に、2つの競合するLLMは、それぞれHugging Faceで1億7700万回、500万回ダウンロードされている。
LLMwareエコシステムの持続的な成長を支援するための意味と勧告で締めくくった。
関連論文リスト
- Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages [3.7667883869699597]
PyPIのようなオープンソースリポジトリの悪意のあるコードは、ソフトウェアサプライチェーンに対する脅威が増大している。
本稿では,悪質なPyPIパッケージを検出するために協調言語モデルを用いたマルチエージェントシステムであるLAMPSを提案する。
論文 参考訳(メタデータ) (2026-01-17T19:43:22Z) - Specification and Detection of LLM Code Smells [3.53563608080816]
我々は,LLMコードの臭いの概念を導入し,ソフトウェアシステムにおけるLLM推論に関連する5つの問題のあるコーディングプラクティスを定式化する。
検出ツールSpecDetect4AIを拡張して、新たに定義されたLLMコードの臭いをカバーし、200のオープンソースLLMシステムのデータセットでそれらの頻度を検証する。
論文 参考訳(メタデータ) (2025-12-19T19:24:56Z) - An Empirical Study of Vulnerable Package Dependencies in LLM Repositories [14.817045028745563]
大型言語モデル(LLM)はパッケージ管理システムからの外部コード依存に依存している。
依存関係の脆弱性は、LSMをセキュリティリスクに晒すことができる。
LLMエコシステムの脆弱性の半分は56.2ヶ月以上も公表されていない。
論文 参考訳(メタデータ) (2025-08-29T08:38:58Z) - Understanding the Supply Chain and Risks of Large Language Model Applications [25.571274158366563]
本稿では,LLM(Large Language Models)サプライチェーンセキュリティの分析とベンチマークを行うための,最初の包括的なデータセットを紹介する。
実世界のLLMアプリケーション3,859件を収集し,相互依存解析を行い,109,211モデル,2,474データセット,9,862ライブラリを同定した。
以上の結果から,LLMアプリケーションへの依存性が深く,サプライチェーン全体の重大な脆弱性が指摘され,包括的セキュリティ分析の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-07-24T05:30:54Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。