論文の概要: The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face
- arxiv url: http://arxiv.org/abs/2502.04484v1
- Date: Thu, 06 Feb 2025 20:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:42.440812
- Title: The ML Supply Chain in the Era of Software 2.0: Lessons Learned from Hugging Face
- Title(参考訳): Software 2.0時代のMLサプライチェーン: ジャグリングフェイスから学んだこと
- Authors: Trevor Stalnaker, Nathan Wintersgill, Oscar Chaparro, Laura A. Heymann, Massimiliano Di Penta, Daniel M German, Denys Poshyvanyk,
- Abstract要約: 私たちは、人気のあるモデル共有サイトHugging Faceから抽出された760,460モデルと175,000のデータセットを広範囲に分析します。
我々は、Hugging Faceサプライチェーンにおけるドキュメンテーションの現状を評価し、欠陥の実例を報告し、改善のための実用的な提案を提供する。
我々の研究結果は、MLモデル/データセットのライセンス管理の改善など、複数の研究の道のりを動機付けています。
- 参考スコア(独自算出の注目度): 10.531612371200625
- License:
- Abstract: The last decade has seen widespread adoption of Machine Learning (ML) components in software systems. This has occurred in nearly every domain, from natural language processing to computer vision. These ML components range from relatively simple neural networks to complex and resource-intensive large language models. However, despite this widespread adoption, little is known about the supply chain relationships that produce these models, which can have implications for compliance and security. In this work, we conduct an extensive analysis of 760,460 models and 175,000 datasets mined from the popular model-sharing site Hugging Face. First, we evaluate the current state of documentation in the Hugging Face supply chain, report real-world examples of shortcomings, and offer actionable suggestions for improvement. Next, we analyze the underlying structure of the extant supply chain. Finally, we explore the current licensing landscape against what was reported in prior work and discuss the unique challenges posed in this domain. Our results motivate multiple research avenues, including the need for better license management for ML models/datasets, better support for model documentation, and automated inconsistency checking and validation. We make our research infrastructure and dataset available to facilitate future research.
- Abstract(参考訳): 過去10年間、ソフトウェアシステムに機械学習(ML)コンポーネントが広く採用されてきた。
これは、自然言語処理からコンピュータビジョンまで、ほぼすべての領域で起きている。
これらのMLコンポーネントは、比較的単純なニューラルネットワークから、複雑でリソース集約型の大規模言語モデルまで様々である。
しかし、この広く採用されているにもかかわらず、これらのモデルを生成するサプライチェーンの関係についてはほとんど分かっておらず、コンプライアンスやセキュリティに影響を及ぼす可能性がある。
本研究では、人気のあるモデル共有サイトHugging Faceから抽出された760,460モデルと175,000のデータセットを広範囲に分析する。
まず,Hugging Faceサプライチェーンにおけるドキュメンテーションの現状を評価し,問題点の実例を報告するとともに,改善のための実用的な提案を行う。
次に、現存するサプライチェーンの基盤構造を分析する。
最後に、前回の作業で報告されたことに対する現在のライセンスの状況について検討し、この領域で生じるユニークな課題について論じる。
私たちの結果は、MLモデル/データセットのライセンス管理の改善、モデルドキュメンテーションのサポートの改善、自動化された一貫性チェックと検証など、複数の研究の道のりを動機付けています。
今後の研究を促進するために、研究基盤とデータセットを利用可能にしています。
関連論文リスト
- SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。
論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文 参考訳(メタデータ) (2024-08-26T03:33:36Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Large Language Model for Verilog Generation with Golden Code Feedback [29.135207235743795]
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-07-21T11:25:21Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。
NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。
NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Language Models as a Service: Overview of a New Paradigm and its
Challenges [47.75762014254756]
現在最も強力な言語モデルはプロプライエタリなシステムであり、(典型的には制限のある)Webやプログラミングでのみアクセス可能である。
本稿では,LMインタフェースのアクセシビリティ,複製性,信頼性,信頼性の障害となる課題について述べる。
一方で、現在のメジャーなLMに関する既存の知識の総合的なリソースとして機能し、インターフェースが提供するライセンスと機能の概要を総合的に提供する。
論文 参考訳(メタデータ) (2023-09-28T16:29:52Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。