論文の概要: HuggingGraph: Understanding the Supply Chain of LLM Ecosystem
- arxiv url: http://arxiv.org/abs/2507.14240v2
- Date: Sat, 02 Aug 2025 23:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.587126
- Title: HuggingGraph: Understanding the Supply Chain of LLM Ecosystem
- Title(参考訳): HuggingGraph: LLMエコシステムのサプライチェーンを理解する
- Authors: Mohammad Shahedur Rahman, Runbang Hu, Peng Gao, Yuede Ji,
- Abstract要約: 大規模言語モデル(LLM)は、文脈に基づいて単語のシーケンスを処理および予測するためにディープラーニングアーキテクチャを活用する。
LLMは広範な計算資源と大規模データセットを必要とする。
本研究の目的は,LLMサプライチェーンの中心となるモデルとデータセットの関係を研究することである。
- 参考スコア(独自算出の注目度): 8.8013428182102
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) leverage deep learning architectures to process and predict sequences of words based on context, enabling them to perform a wide range of natural language processing tasks, such as translation, summarization, question answering, and content generation. However, the increasing size and complexity of developing, training, and deploying cutting-edge LLMs demand extensive computational resources and large-scale datasets. This creates a significant barrier for researchers and practitioners. Because of that, platforms that host models and datasets have gained widespread popularity. For example, on one of the most popular platforms, i.e., Hugging Face, there are more than 1.8 million models and more than 450K datasets by the end of June 2025, and the trend does not show any slowdown. As existing LLMs are often built from base models or other pretrained models and use external datasets, they can inevitably inherit vulnerabilities, biases, or malicious components that exist in previous models or datasets. Therefore, it is critical to understand these components' origin and development process to detect potential risks better, improve model fairness, and ensure compliance with regulatory frameworks. Motivated by that, this project aims to study such relationships between models and datasets, which are the central parts of the LLM supply chain. First, we design a methodology to collect LLMs' supply chain information systematically. With the collected information, we design a new graph to model the relationships between models and datasets, which is a large directed heterogeneous graph having 402,654 nodes and 462,524 edges. Then, on top of this graph, we perform different types of analysis and make multiple interesting findings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈に基づいて単語のシーケンスを処理し、予測するためにディープラーニングアーキテクチャを活用し、翻訳、要約、質問応答、コンテンツ生成など、幅広い自然言語処理タスクを実行できる。
しかし、最先端のLLMの開発、訓練、展開の規模と複雑さが増大するにつれ、膨大な計算資源と大規模データセットが要求される。
これは研究者や実践者にとって大きな障壁となる。
そのため、モデルやデータセットをホストするプラットフォームが広く普及している。
例えば、Hugging Faceのような最も人気のあるプラットフォームでは、2025年6月末までに1.8万以上のモデルと450万以上のデータセットがあり、この傾向はスローダウンを示さない。
既存のLLMはベースモデルや他の事前訓練されたモデルから構築され、外部データセットを使用することが多いため、前モデルやデータセットに存在する脆弱性やバイアス、悪意のあるコンポーネントを必然的に継承することができる。
したがって、これらのコンポーネントの起源と開発プロセスを理解し、潜在的なリスクをよりよく検出し、モデルの公正性を向上し、規制フレームワークへのコンプライアンスを確保することが重要である。
そこで本プロジェクトは,LLMサプライチェーンの中心となるモデルとデータセットの関係について検討することを目的としている。
まず,LLMのサプライチェーン情報を体系的に収集する手法を設計する。
収集した情報を用いて,402,654ノードと462,524エッジを持つ大方向の不均一グラフであるモデルとデータセットの関係をモデル化する新しいグラフを設計する。
そして、このグラフの上に、異なるタイプの分析を行い、複数の興味深い発見を行う。
関連論文リスト
- C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。
C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文 参考訳(メタデータ) (2025-07-22T12:27:08Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks [25.720233631885726]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)の統合は、有望な技術パラダイムとして現れている。
データ品質を根本的に向上させるために、リッチなセマンティックコンテキストを持つグラフ記述テキストを活用します。
この研究は、グラフ学習方法論の進歩を目指す研究者や実践者にとって、基礎的な参考となる。
論文 参考訳(メタデータ) (2024-12-17T01:41:17Z) - Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。
これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。
実験と応用研究は、我々のアプローチの有効性を証明した。
論文 参考訳(メタデータ) (2024-12-06T09:04:12Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。
我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。
GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。