論文の概要: The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face
- arxiv url: http://arxiv.org/abs/2502.04484v1
- Date: Thu, 06 Feb 2025 20:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 18:29:32.918534
- Title: The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face
- Title(参考訳): Software 2.0時代のMLサプライチェーン: ジャグリングフェイスから学んだこと
- Authors: Trevor Stalnaker, Nathan Wintersgill, Oscar Chaparro, Laura A. Heymann, Massimiliano Di Penta, Daniel M German, Denys Poshyvanyk,
- Abstract要約: 私たちは、人気のあるモデル共有サイトHugging Faceから抽出された760,460モデルと175,000のデータセットを広範囲に分析します。
我々は、Hugging Faceサプライチェーンにおけるドキュメンテーションの現状を評価し、欠陥の実例を報告し、改善のための実用的な提案を提供する。
我々の研究結果は、MLモデル/データセットのライセンス管理の改善など、複数の研究の道のりを動機付けています。
- 参考スコア(独自算出の注目度): 10.531612371200625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The last decade has seen widespread adoption of Machine Learning (ML) components in software systems. This has occurred in nearly every domain, from natural language processing to computer vision. These ML components range from relatively simple neural networks to complex and resource-intensive large language models. However, despite this widespread adoption, little is known about the supply chain relationships that produce these models, which can have implications for compliance and security. In this work, we conduct an extensive analysis of 760,460 models and 175,000 datasets mined from the popular model-sharing site Hugging Face. First, we evaluate the current state of documentation in the Hugging Face supply chain, report real-world examples of shortcomings, and offer actionable suggestions for improvement. Next, we analyze the underlying structure of the extant supply chain. Finally, we explore the current licensing landscape against what was reported in prior work and discuss the unique challenges posed in this domain. Our results motivate multiple research avenues, including the need for better license management for ML models/datasets, better support for model documentation, and automated inconsistency checking and validation. We make our research infrastructure and dataset available to facilitate future research.
- Abstract(参考訳): 過去10年間、ソフトウェアシステムに機械学習(ML)コンポーネントが広く採用されてきた。
これは、自然言語処理からコンピュータビジョンまで、ほぼすべての領域で起きている。
これらのMLコンポーネントは、比較的単純なニューラルネットワークから、複雑でリソース集約型の大規模言語モデルまで様々である。
しかし、この広く採用されているにもかかわらず、これらのモデルを生成するサプライチェーンの関係についてはほとんど分かっておらず、コンプライアンスやセキュリティに影響を及ぼす可能性がある。
本研究では、人気のあるモデル共有サイトHugging Faceから抽出された760,460モデルと175,000のデータセットを広範囲に分析する。
まず,Hugging Faceサプライチェーンにおけるドキュメンテーションの現状を評価し,問題点の実例を報告するとともに,改善のための実用的な提案を行う。
次に、現存するサプライチェーンの基盤構造を分析する。
最後に、前回の作業で報告されたことに対する現在のライセンスの状況について検討し、この領域で生じるユニークな課題について論じる。
私たちの結果は、MLモデル/データセットのライセンス管理の改善、モデルドキュメンテーションのサポートの改善、自動化された一貫性チェックと検証など、複数の研究の道のりを動機付けています。
今後の研究を促進するために、研究基盤とデータセットを利用可能にしています。
関連論文リスト
- Designing a reliable lateral movement detector using a graph foundation model [0.0]
機械学習(ML)の新しいパラダイムとして、ファンデーションモデルが最近登場した。
これらのモデルは、大規模で多様なデータセットで事前トレーニングされ、その後、ほとんどまたは全くリトレーニングすることなく、さまざまな下流タスクに適用できる。
サイバーセキュリティにおけるグラフ基盤モデル(GFM)の有用性について,ある特定のユースケース,すなわち横移動検出のレンズを用いて検討した。
論文 参考訳(メタデータ) (2025-04-18T07:39:21Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - LEMUR Neural Network Dataset: Towards Seamless AutoML [34.04248949660201]
LEMURは、ニューラルネットワークモデルのオープンソースデータセットであり、多様なアーキテクチャのためのよく構造化されたコードである。
LEMURは主に、機械学習タスクを自動化するために、大規模な言語モデルの微調整を可能にするように設計されている。
LEMURはMITライセンス下でオープンソースプロジェクトとしてリリースされ、論文が受理される。
論文 参考訳(メタデータ) (2025-04-14T09:08:00Z) - SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。
論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文 参考訳(メタデータ) (2024-08-26T03:33:36Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Large Language Model for Verilog Generation with Golden Code Feedback [29.135207235743795]
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-07-21T11:25:21Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Language Models as a Service: Overview of a New Paradigm and its
Challenges [47.75762014254756]
現在最も強力な言語モデルはプロプライエタリなシステムであり、(典型的には制限のある)Webやプログラミングでのみアクセス可能である。
本稿では,LMインタフェースのアクセシビリティ,複製性,信頼性,信頼性の障害となる課題について述べる。
一方で、現在のメジャーなLMに関する既存の知識の総合的なリソースとして機能し、インターフェースが提供するライセンスと機能の概要を総合的に提供する。
論文 参考訳(メタデータ) (2023-09-28T16:29:52Z) - Machine Learning for QoS Prediction in Vehicular Communication:
Challenges and Solution Approaches [46.52224306624461]
最大スループット予測の強化,例えばストリーミングや高精細マッピングアプリケーションについて検討する。
収集したデータの基盤となる特性をよりよく理解することで、マシンラーニング技術上に信頼性を構築することができるかを強調します。
我々は、説明可能なAIを使用して、機械学習が明示的にプログラムされることなく、無線ネットワークの基本原理を学習できることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:29:20Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。