論文の概要: Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
- arxiv url: http://arxiv.org/abs/2508.06811v1
- Date: Sat, 09 Aug 2025 04:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.559755
- Title: Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
- Title(参考訳): 機械学習エコシステムの解剖:ハグする顔に関する200万のモデル
- Authors: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg,
- Abstract要約: 本稿では,モデル開発をリードするピアプロダクションプラットフォームであるHugging Faceの186万モデルについて分析する。
進化生物学のレンズを用いて、モデルファミリー上の形質の遺伝的類似性と突然変異を測定する。
その結果、モデルが同じモデルファミリーに属すると、遺伝的マーカーや形質が重なり合う傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks that connect fine-tuned models to their base or parent -- reveals sprawling fine-tuning lineages that vary widely in size and structure. Using an evolutionary biology lens to study ML models, we use model metadata and model cards to measure the genetic similarity and mutation of traits over model families. We find that models tend to exhibit a family resemblance, meaning their genetic markers and traits exhibit more overlap when they belong to the same model family. However, these similarities depart in certain ways from standard models of asexual reproduction, because mutations are fast and directed, such that two `sibling' models tend to exhibit more similarity than parent/child pairs. Further analysis of the directional drifts of these mutations reveals qualitative insights about the open machine learning ecosystem: Licenses counter-intuitively drift from restrictive, commercial licenses towards permissive or copyleft licenses, often in violation of upstream license's terms; models evolve from multi-lingual compatibility towards english-only compatibility; and model cards reduce in length and standardize by turning, more often, to templates and automatically generated text. Overall, this work takes a step toward an empirically grounded understanding of model fine-tuning and suggests that ecological models and methods can yield novel scientific insights.
- Abstract(参考訳): 多くの人は、生成機械学習(ML)と人工知能(AI)モデルの開発と展開が、特定の下流タスクに事前学習されたモデルを適応し、微調整する独特のパターンに従うことを観察している。
しかし、これらの相互作用の構造を調べる実験的な研究は限られている。
本稿では,モデル開発をリードするピアプロダクションプラットフォームであるHugging Faceの186万モデルについて分析する。
モデルファミリーツリー(細調整されたモデルをベースまたは親に接続するネットワーク)の研究は、サイズや構造に大きく異なる細調整された系統が広がることを示している。
進化生物学のレンズを用いてMLモデルの研究を行い、モデルメタデータとモデルカードを用いてモデルファミリー上の形質の遺伝的類似性と突然変異を測定する。
その結果、モデルが同じモデルファミリーに属すると、遺伝的マーカーや形質が重なり合う傾向にあることがわかった。
しかしながら、これらの類似性は、突然変異が高速かつ指向的であるため、2つの「兄弟」モデルが親子ペアよりも類似性を示す傾向にあるため、無性生殖の標準的なモデルとは異なる。
ライセンスは制限的で商用ライセンスから寛容またはコピーレフトライセンスへ、しばしば上流ライセンスの条件に違反している。モデルは、多言語互換性から英語のみの互換性へと進化し、モデルカードは、より頻繁にテンプレートや自動生成テキストへ、長さと標準化を減らし、標準化される。
全体として、この研究はモデル微調整の実証的な理解に向けた一歩を踏み出し、生態モデルと手法が新たな科学的洞察をもたらすことを示唆している。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Neural Lineage [56.34149480207817]
本稿では,親子間の系統関係の発見を目的としたニューラルライン検出という新しいタスクを提案する。
実用上,ニューラルネットワーク表現類似度指標に微調整プロセスの近似を組み込んだ学習自由アプローチを導入する。
精度を追求するために,エンコーダと変圧器検出器からなる学習系系統検出装置を導入する。
論文 参考訳(メタデータ) (2024-06-17T01:11:53Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Provenance via Model DNA [23.885185988451667]
本稿では,機械学習モデルの特徴を表現した新しいモデルDNAについて紹介する。
本研究では,対象モデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。
論文 参考訳(メタデータ) (2023-08-04T03:46:41Z) - Emerging Patterns in the Continuum Representation of Protein-Lipid
Fingerprints [12.219106300827798]
分子動力学モデルから1次元統計を用いた連続体モデルの性能評価を行った。
本研究では,連続体モデルから複雑かつ創発的な振る舞いを識別する高度予測型分類モデルを開発する。
提案手法は,タンパク質特異的な「脂質指紋」の存在,すなわち関心のあるタンパク質に対する脂質の空間的再構成の存在を確認する。
論文 参考訳(メタデータ) (2022-07-09T20:07:49Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Extending Models Via Gradient Boosting: An Application to Mendelian
Models [1.9573380763700712]
グラデーションブーストと開発前のモデルを組み合わせてモデル性能を向上させるという、モデル改善の一般的なアプローチを提案します。
既存のメンデルモデルとの勾配ブースティングの統合は、勾配ブースティングだけで構築されたモデルとモデルの両方を上回る改良モデルを生成することができる。
論文 参考訳(メタデータ) (2021-05-13T21:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。