論文の概要: HuggingGraph: Understanding the Supply Chain of LLM Ecosystem
- arxiv url: http://arxiv.org/abs/2507.14240v1
- Date: Thu, 17 Jul 2025 17:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.795723
- Title: HuggingGraph: Understanding the Supply Chain of LLM Ecosystem
- Title(参考訳): HuggingGraph: LLMエコシステムのサプライチェーンを理解する
- Authors: Mohammad Shahedur Rahman, Peng Gao, Yuede Ji,
- Abstract要約: 大規模言語モデル(LLM)は、文脈から単語のシーケンスを処理および予測するためにディープラーニングを活用する。
その結果、モデルとデータセットをホストするプラットフォームが広く使用されている。
本研究の目的は,LLMサプライチェーンのコアコンポーネントであるモデルとデータセットの関係を検討することである。
- 参考スコア(独自算出の注目度): 9.61483474473764
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) leverage deep learning to process and predict sequences of words from context, enabling them to perform various NLP tasks, such as translation, summarization, question answering, and content generation. However, the growing size and complexity of developing, training, and deploying advanced LLMs require extensive computational resources and large datasets. This creates a barrier for users. As a result, platforms that host models and datasets are widely used. For example, Hugging Face, one of the most popular platforms, hosted 1.8 million models and 450K datasets by June 2025, with no sign of slowing down. Since many LLMs are built from base models, pre-trained models, and external datasets, they can inherit vulnerabilities, biases, or malicious components from earlier models or datasets. Therefore, it is critical to understand the origin and development of these components to better detect potential risks, improve model fairness, and ensure compliance. Motivated by this, our project aims to study the relationships between models and datasets, which are core components of the LLM supply chain. First, we design a method to systematically collect LLM supply chain data. Using this data, we build a directed heterogeneous graph to model the relationships between models and datasets, resulting in a structure with 397,376 nodes and 453,469 edges. We then perform various analyses and uncover several findings, such as: (i) the LLM supply chain graph is large, sparse, and follows a power-law degree distribution; (ii) it features a densely connected core and a fragmented periphery; (iii) datasets play pivotal roles in training; (iv) strong interdependence exists between models and datasets; and (v) the graph is dynamic, with daily updates reflecting the ecosystem's ongoing evolution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、深層学習を利用して文脈から単語のシーケンスを処理し、予測し、翻訳、要約、質問応答、コンテンツ生成などの様々なNLPタスクを実行できる。
しかし、高度なLCMを開発し、訓練し、展開する際の規模と複雑さは、膨大な計算資源と大規模なデータセットを必要とする。
これはユーザにとって障壁になります。
その結果、モデルとデータセットをホストするプラットフォームが広く使用されている。
例えば、最も人気のあるプラットフォームのひとつであるHugging Faceでは、2025年6月までに1.8万のモデルと450万のデータセットがホストされた。
多くのLCMはベースモデル、トレーニング済みモデル、外部データセットから構築されているため、以前のモデルやデータセットから脆弱性、バイアス、悪意のあるコンポーネントを継承することができる。
したがって、これらのコンポーネントの起源と開発を理解し、潜在的なリスクを検知し、モデルフェアネスを改善し、コンプライアンスを確保することが重要である。
本研究の目的は,LLMサプライチェーンのコアコンポーネントであるモデルとデータセットの関係を検討することである。
まず,LLMサプライチェーンデータを体系的に収集する手法を設計する。
このデータを用いて、モデルとデータセットの関係をモデル化するための有向不均一グラフを構築し、397,376ノードと453,469エッジを持つ構造となる。
その後、さまざまな分析を行い、以下のいくつかの発見を公表する。
i) LLMサプライチェーングラフは,大きく,疎らであり,かつ,電力法次数分布に従う。
(二)密接なコアと断片化された周辺を特徴とする。
三 データセットが訓練において重要な役割を果たすこと。
(四)モデルとデータセットの間に強い相互依存が存在し、
(v) グラフは動的で、日々のアップデートはエコシステムの継続的な進化を反映しています。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。
これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。
実験と応用研究は、我々のアプローチの有効性を証明した。
論文 参考訳(メタデータ) (2024-12-06T09:04:12Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。