論文の概要: Lessons Learned from Mining the Hugging Face Repository
- arxiv url: http://arxiv.org/abs/2402.07323v1
- Date: Sun, 11 Feb 2024 22:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:22:17.684109
- Title: Lessons Learned from Mining the Hugging Face Repository
- Title(参考訳): huging faceリポジトリのマイニングから学んだこと
- Authors: Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch
- Abstract要約: Hugging Face (HF) に関する2つの総合的研究から得られた知見を総合的に分析する
本研究の目的は,HFエコシステムにおけるソフトウェアリポジトリ研究の実践的ガイドを提供することである。
- 参考スコア(独自算出の注目度): 5.394314536012109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapidly evolving fields of Machine Learning (ML) and Artificial
Intelligence have witnessed the emergence of platforms like Hugging Face (HF)
as central hubs for model development and sharing. This experience report
synthesizes insights from two comprehensive studies conducted on HF, focusing
on carbon emissions and the evolutionary and maintenance aspects of ML models.
Our objective is to provide a practical guide for future researchers embarking
on mining software repository studies within the HF ecosystem to enhance the
quality of these studies. We delve into the intricacies of the replication
package used in our studies, highlighting the pivotal tools and methodologies
that facilitated our analysis. Furthermore, we propose a nuanced stratified
sampling strategy tailored for the diverse HF Hub dataset, ensuring a
representative and comprehensive analytical approach. The report also
introduces preliminary guidelines, transitioning from repository mining to
cohort studies, to establish causality in repository mining studies,
particularly within the ML model of HF context. This transition is inspired by
existing frameworks and is adapted to suit the unique characteristics of the HF
model ecosystem. Our report serves as a guiding framework for researchers,
contributing to the responsible and sustainable advancement of ML, and
fostering a deeper understanding of the broader implications of ML models.
- Abstract(参考訳): 機械学習(ML)と人工知能(Artificial Intelligence)の急速に発展する分野は、Hugging Face(HF)のようなプラットフォームをモデル開発と共有のハブとして台頭している。
この経験報告は、HFに関する2つの総合的な研究から洞察を合成し、二酸化炭素排出量とMLモデルの進化的および保守的側面に焦点を当てる。
本研究の目的は,これらの研究の質を高めるため,HFエコシステム内のソフトウェアリポジトリ研究の実践的ガイドを提供することである。
我々は、我々の研究で使われている複製パッケージの複雑さを掘り下げ、分析を容易にする重要なツールと方法論を強調した。
さらに,多様なhfハブデータセット用に最適化されたニュアンス階層化サンプリング戦略を提案する。
また、レポジトリマイニングからコホート研究への移行、特にHFコンテキストのMLモデルにおけるレポジトリマイニング研究の因果性を確立するための予備的ガイドラインも導入している。
この移行は既存のフレームワークにインスパイアされ、HFモデルエコシステムのユニークな特徴に適合するように適応されている。
本報告は、研究者の指導的枠組みとして機能し、MLの責任と持続可能な進歩に貢献し、MLモデルのより広範な意味に関する深い理解を促進する。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Analyzing the Evolution and Maintenance of ML Models on Hugging Face [8.409033836300761]
Hugging Face(HF)は、マシンラーニング(ML)モデルの開発と共有のための重要なプラットフォームとして、自らを確立している。
このリポジトリマイニング調査は、HF Hub API経由で収集されたデータを使用して、380,000以上のモデルに分類し、HFにホストされたモデルに関するコミュニティの関与、進化、メンテナンスを探求することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T13:20:25Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Less is More: A Call to Focus on Simpler Models in Genetic Programming
for Interpretable Machine Learning [1.0323063834827415]
解釈可能性(interpretability)は、ハイテイクなアプリケーションにおける機械学習モデルの安全かつ責任ある使用に不可欠である。
GP for IMLの研究は、低複雑さモデルにおける探索に重点を置く必要があると我々は主張する。
論文 参考訳(メタデータ) (2022-04-05T08:28:07Z) - MUC-driven Feature Importance Measurement and Adversarial Analysis for
Random Forest [1.5896078006029473]
我々は形式的手法と論理的推論を活用して、ランダムフォレスト(RF)の予測を説明する新しいモデル固有の方法を開発した。
提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。
提案手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。
論文 参考訳(メタデータ) (2022-02-25T06:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。