論文の概要: Lessons Learned from Mining the Hugging Face Repository
- arxiv url: http://arxiv.org/abs/2402.07323v1
- Date: Sun, 11 Feb 2024 22:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:22:17.684109
- Title: Lessons Learned from Mining the Hugging Face Repository
- Title(参考訳): huging faceリポジトリのマイニングから学んだこと
- Authors: Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch
- Abstract要約: Hugging Face (HF) に関する2つの総合的研究から得られた知見を総合的に分析する
本研究の目的は,HFエコシステムにおけるソフトウェアリポジトリ研究の実践的ガイドを提供することである。
- 参考スコア(独自算出の注目度): 5.394314536012109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapidly evolving fields of Machine Learning (ML) and Artificial
Intelligence have witnessed the emergence of platforms like Hugging Face (HF)
as central hubs for model development and sharing. This experience report
synthesizes insights from two comprehensive studies conducted on HF, focusing
on carbon emissions and the evolutionary and maintenance aspects of ML models.
Our objective is to provide a practical guide for future researchers embarking
on mining software repository studies within the HF ecosystem to enhance the
quality of these studies. We delve into the intricacies of the replication
package used in our studies, highlighting the pivotal tools and methodologies
that facilitated our analysis. Furthermore, we propose a nuanced stratified
sampling strategy tailored for the diverse HF Hub dataset, ensuring a
representative and comprehensive analytical approach. The report also
introduces preliminary guidelines, transitioning from repository mining to
cohort studies, to establish causality in repository mining studies,
particularly within the ML model of HF context. This transition is inspired by
existing frameworks and is adapted to suit the unique characteristics of the HF
model ecosystem. Our report serves as a guiding framework for researchers,
contributing to the responsible and sustainable advancement of ML, and
fostering a deeper understanding of the broader implications of ML models.
- Abstract(参考訳): 機械学習(ML)と人工知能(Artificial Intelligence)の急速に発展する分野は、Hugging Face(HF)のようなプラットフォームをモデル開発と共有のハブとして台頭している。
この経験報告は、HFに関する2つの総合的な研究から洞察を合成し、二酸化炭素排出量とMLモデルの進化的および保守的側面に焦点を当てる。
本研究の目的は,これらの研究の質を高めるため,HFエコシステム内のソフトウェアリポジトリ研究の実践的ガイドを提供することである。
我々は、我々の研究で使われている複製パッケージの複雑さを掘り下げ、分析を容易にする重要なツールと方法論を強調した。
さらに,多様なhfハブデータセット用に最適化されたニュアンス階層化サンプリング戦略を提案する。
また、レポジトリマイニングからコホート研究への移行、特にHFコンテキストのMLモデルにおけるレポジトリマイニング研究の因果性を確立するための予備的ガイドラインも導入している。
この移行は既存のフレームワークにインスパイアされ、HFモデルエコシステムのユニークな特徴に適合するように適応されている。
本報告は、研究者の指導的枠組みとして機能し、MLの責任と持続可能な進歩に貢献し、MLモデルのより広範な意味に関する深い理解を促進する。
関連論文リスト
- RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Analyzing the Evolution and Maintenance of ML Models on Hugging Face [8.409033836300761]
Hugging Face(HF)は、マシンラーニング(ML)モデルの開発と共有のための重要なプラットフォームとして、自らを確立している。
このリポジトリマイニング調査は、HF Hub API経由で収集されたデータを使用して、380,000以上のモデルに分類し、HFにホストされたモデルに関するコミュニティの関与、進化、メンテナンスを探求することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T13:20:25Z) - Stochastic Deep Koopman Model for Quality Propagation Analysis in
Multistage Manufacturing Systems [1.178566843877027]
本研究では、MMSの複雑な振る舞いをモデル化するための深いクープマン(SDK)フレームワークを紹介する。
本稿では,変分オートエンコーダから抽出した臨界品質情報を伝搬するクープマン演算子の新たな応用法を提案する。
論文 参考訳(メタデータ) (2023-09-18T22:53:17Z) - Machine learning assisted exploration for affine Deligne-Lusztig
varieties [3.7863170254779335]
本稿では,ADLV(Affine Deligne-Lusztig variety)の幾何学を探索するために,機械学習支援フレームワークを活用した学際研究を提案する。
主な目的は, ADLVの既約成分の空白パターン, 寸法, 列挙について検討することである。
我々は、ある下界の次元に関する新たに特定された問題の完全な数学的証明を提供する。
論文 参考訳(メタデータ) (2023-08-22T11:12:53Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Less is More: A Call to Focus on Simpler Models in Genetic Programming
for Interpretable Machine Learning [1.0323063834827415]
解釈可能性(interpretability)は、ハイテイクなアプリケーションにおける機械学習モデルの安全かつ責任ある使用に不可欠である。
GP for IMLの研究は、低複雑さモデルにおける探索に重点を置く必要があると我々は主張する。
論文 参考訳(メタデータ) (2022-04-05T08:28:07Z) - MUC-driven Feature Importance Measurement and Adversarial Analysis for
Random Forest [1.5896078006029473]
我々は形式的手法と論理的推論を活用して、ランダムフォレスト(RF)の予測を説明する新しいモデル固有の方法を開発した。
提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。
提案手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。
論文 参考訳(メタデータ) (2022-02-25T06:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。