論文の概要: On the Suitability of Hugging Face Hub for Empirical Studies
- arxiv url: http://arxiv.org/abs/2307.14841v1
- Date: Thu, 27 Jul 2023 13:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 16:11:30.231364
- Title: On the Suitability of Hugging Face Hub for Empirical Studies
- Title(参考訳): 実験研究におけるハグフェイスハブの適合性について
- Authors: Adem Ait, Javier Luis C\'anovas Izquierdo, Jordi Cabot
- Abstract要約: ソフトウェア工学における実証的研究の発展は、主にコードホスティングプラットフォームで利用可能なデータに依存している。
機械学習(ML)の出現により、MLベースのプロジェクトを開発するために特別に設計されたプラットフォームが開発され、最も人気のあるのはHugging Face Hub(HFH)である。
250k以上のレポジトリを持ち、急速に成長するHFHは、MLアーティファクトの有望なエコシステムになりつつある。
- 参考スコア(独自算出の注目度): 1.961305559606562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Background. The development of empirical studies in software engineering
mainly relies on the data available on code hosting platforms, being GitHub the
most representative. Nevertheless, in the last years, the emergence of Machine
Learning (ML) has led to the development of platforms specifically designed for
developing ML-based projects, being Hugging Face Hub (HFH) the most popular
one. With over 250k repositories, and growing fast, HFH is becoming a promising
ecosystem of ML artifacts and therefore a potential source of data for
empirical studies. However, so far there have been no studies evaluating the
potential of HFH for such studies. Objective. In this proposal for a registered
report, we aim at performing an exploratory study of the current state of HFH
in order to investigate its suitability to be used as a source platform for
empirical studies. Method. We conduct a qualitative and quantitative analysis
of HFH for empirical studies. The former will be performed by comparing the
features of HFH with those of other code hosting platforms, such as GitHub and
GitLab. The latter will be performed by analyzing the data available in HFH.
- Abstract(参考訳): 背景。
ソフトウェア工学における実証研究の開発は、主にコードホスティングプラットフォームで利用可能なデータに依存しており、githubが最も代表的である。
それにもかかわらず、ここ数年で機械学習(ML)の出現により、MLベースのプロジェクトを開発するためのプラットフォームが開発され、最も人気のあるHugging Face Hub(HFH)が開発されている。
250万を超えるリポジトリと急速に成長しているhfhは、mlアーチファクトの有望なエコシステムになりつつある。
しかし,このような研究においてhfhの可能性を評価する研究はこれまでに行われていない。
目的。
本提案では,hfhの現況を探索的に検討し,経験的研究の基盤としての利用に適することを検討することを目的とする。
方法。
実験研究におけるHFHの質的定量的分析を行った。
前者はHFHの機能とGitHubやGitLabのような他のコードホスティングプラットフォームの機能を比較することで実行される。
後者はhfhで利用可能なデータを分析することによって行われる。
関連論文リスト
- Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Lessons Learned from Mining the Hugging Face Repository [5.394314536012109]
Hugging Face (HF) に関する2つの総合的研究から得られた知見を総合的に分析する
本研究の目的は,HFエコシステムにおけるソフトウェアリポジトリ研究の実践的ガイドを提供することである。
論文 参考訳(メタデータ) (2024-02-11T22:59:19Z) - Heterogeneous Federated Learning: State-of-the-art and Research
Challenges [117.77132819796105]
不均一フェデレートラーニング(HFL)はより困難であり、それに対応するソリューションは多様で複雑である。
HFLの新たな進歩を概説し,既存のHFL手法の新たな分類法を提案する。
HFLにおけるいくつかの重要かつ将来的な研究方向性について論じる。
論文 参考訳(メタデータ) (2023-07-20T06:32:14Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Source Code Data Augmentation for Deep Learning: A Survey [32.035973285175075]
ソースコードに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
論文 参考訳(メタデータ) (2023-05-31T14:47:44Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Moving from Cross-Project Defect Prediction to Heterogeneous Defect
Prediction: A Partial Replication Study [0.0]
以前の研究では、しばしば機械学習技術を使ってバグ予測モデルを構築し、検証し、改善した。
これらのモデルから得られる知識は、ソースプロジェクトで十分なメトリクスが収集されていない場合、ターゲットプロジェクトと重複することはない。
得られた結果の再現と検証により,系統的に異種欠陥予測(HDP)を統合した。
その結果,hdpアルゴリズムはパラメータ選択に対する感度が高いため,多くのケースで実現不可能であることが判明した。
論文 参考訳(メタデータ) (2021-03-05T06:29:45Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - Towards Utilizing Unlabeled Data in Federated Learning: A Survey and
Prospective [18.40606952418594]
近年,フェデレートラーニング(FL)が研究者から注目されている。
FLのほとんどのアプリケーション、例えばキーボードの予測、ラベル付けデータでは、ほとんど追加の努力は必要ありません。
FLにおけるラベルなしデータの活用の必要性を特定し,その目的に寄与する可能性のある研究分野を調査する。
論文 参考訳(メタデータ) (2020-02-26T14:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。