論文の概要: On the Suitability of Hugging Face Hub for Empirical Studies
- arxiv url: http://arxiv.org/abs/2307.14841v1
- Date: Thu, 27 Jul 2023 13:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 16:11:30.231364
- Title: On the Suitability of Hugging Face Hub for Empirical Studies
- Title(参考訳): 実験研究におけるハグフェイスハブの適合性について
- Authors: Adem Ait, Javier Luis C\'anovas Izquierdo, Jordi Cabot
- Abstract要約: ソフトウェア工学における実証的研究の発展は、主にコードホスティングプラットフォームで利用可能なデータに依存している。
機械学習(ML)の出現により、MLベースのプロジェクトを開発するために特別に設計されたプラットフォームが開発され、最も人気のあるのはHugging Face Hub(HFH)である。
250k以上のレポジトリを持ち、急速に成長するHFHは、MLアーティファクトの有望なエコシステムになりつつある。
- 参考スコア(独自算出の注目度): 1.961305559606562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Background. The development of empirical studies in software engineering
mainly relies on the data available on code hosting platforms, being GitHub the
most representative. Nevertheless, in the last years, the emergence of Machine
Learning (ML) has led to the development of platforms specifically designed for
developing ML-based projects, being Hugging Face Hub (HFH) the most popular
one. With over 250k repositories, and growing fast, HFH is becoming a promising
ecosystem of ML artifacts and therefore a potential source of data for
empirical studies. However, so far there have been no studies evaluating the
potential of HFH for such studies. Objective. In this proposal for a registered
report, we aim at performing an exploratory study of the current state of HFH
in order to investigate its suitability to be used as a source platform for
empirical studies. Method. We conduct a qualitative and quantitative analysis
of HFH for empirical studies. The former will be performed by comparing the
features of HFH with those of other code hosting platforms, such as GitHub and
GitLab. The latter will be performed by analyzing the data available in HFH.
- Abstract(参考訳): 背景。
ソフトウェア工学における実証研究の開発は、主にコードホスティングプラットフォームで利用可能なデータに依存しており、githubが最も代表的である。
それにもかかわらず、ここ数年で機械学習(ML)の出現により、MLベースのプロジェクトを開発するためのプラットフォームが開発され、最も人気のあるHugging Face Hub(HFH)が開発されている。
250万を超えるリポジトリと急速に成長しているhfhは、mlアーチファクトの有望なエコシステムになりつつある。
しかし,このような研究においてhfhの可能性を評価する研究はこれまでに行われていない。
目的。
本提案では,hfhの現況を探索的に検討し,経験的研究の基盤としての利用に適することを検討することを目的とする。
方法。
実験研究におけるHFHの質的定量的分析を行った。
前者はHFHの機能とGitHubやGitLabのような他のコードホスティングプラットフォームの機能を比較することで実行される。
後者はhfhで利用可能なデータを分析することによって行われる。
関連論文リスト
- On the Creation of Representative Samples of Software Repositories [1.8599311233727087]
GitHubのようなソーシャルコーディングプラットフォームの出現により、研究者は研究のソースデータとして使うために何百万ものソフトウェアリポジトリにアクセスできるようになった。
現在のサンプリング法は、しばしばランダムな選択に基づいており、研究とは無関係な変数に依存している。
本稿では,ソフトウェアリポジトリの代表例を作成する手法を提案する。このような代表性は,リポジトリの個体群の特徴と実証研究の要件の両方に適切に一致している。
論文 参考訳(メタデータ) (2024-10-01T12:41:15Z) - A Systematic Mapping Study of Crowd Knowledge Enhanced Software Engineering Research Using Stack Overflow [0.8621608193534838]
すべてのソフトウェアプロフェッショナルの30%が、最も人気のあるQ&AサイトStackOverflow (SO)を毎日訪問している。
SOデータを利用した傾向,含意,影響,今後の研究の可能性を明らかにするためには,系統地図研究が必要である。
我々は384のSOに基づく研究論文を収集し、それらを10の面(テーマ)に分類した。
私たちは、SOが、QuoraやRedditのような人気のあるQ&Aサイトと比較して、SE研究の85%に寄与していることを発見しました。
論文 参考訳(メタデータ) (2024-08-15T03:40:44Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Lessons Learned from Mining the Hugging Face Repository [5.394314536012109]
Hugging Face (HF) に関する2つの総合的研究から得られた知見を総合的に分析する
本研究の目的は,HFエコシステムにおけるソフトウェアリポジトリ研究の実践的ガイドを提供することである。
論文 参考訳(メタデータ) (2024-02-11T22:59:19Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Moving from Cross-Project Defect Prediction to Heterogeneous Defect
Prediction: A Partial Replication Study [0.0]
以前の研究では、しばしば機械学習技術を使ってバグ予測モデルを構築し、検証し、改善した。
これらのモデルから得られる知識は、ソースプロジェクトで十分なメトリクスが収集されていない場合、ターゲットプロジェクトと重複することはない。
得られた結果の再現と検証により,系統的に異種欠陥予測(HDP)を統合した。
その結果,hdpアルゴリズムはパラメータ選択に対する感度が高いため,多くのケースで実現不可能であることが判明した。
論文 参考訳(メタデータ) (2021-03-05T06:29:45Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。