Fugu-MT 論文翻訳(概要): Lessons Learned from Mining the Hugging Face Repository

論文の概要: Lessons Learned from Mining the Hugging Face Repository

arxiv url: http://arxiv.org/abs/2402.07323v1
Date: Sun, 11 Feb 2024 22:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:22:17.684109
Title: Lessons Learned from Mining the Hugging Face Repository
Title（参考訳）: huging faceリポジトリのマイニングから学んだこと
Authors: Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch
Abstract要約: Hugging Face (HF) に関する2つの総合的研究から得られた知見を総合的に分析する本研究の目的は,HFエコシステムにおけるソフトウェアリポジトリ研究の実践的ガイドを提供することである。
参考スコア（独自算出の注目度）: 5.394314536012109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapidly evolving fields of Machine Learning (ML) and Artificial Intelligence have witnessed the emergence of platforms like Hugging Face (HF) as central hubs for model development and sharing. This experience report synthesizes insights from two comprehensive studies conducted on HF, focusing on carbon emissions and the evolutionary and maintenance aspects of ML models. Our objective is to provide a practical guide for future researchers embarking on mining software repository studies within the HF ecosystem to enhance the quality of these studies. We delve into the intricacies of the replication package used in our studies, highlighting the pivotal tools and methodologies that facilitated our analysis. Furthermore, we propose a nuanced stratified sampling strategy tailored for the diverse HF Hub dataset, ensuring a representative and comprehensive analytical approach. The report also introduces preliminary guidelines, transitioning from repository mining to cohort studies, to establish causality in repository mining studies, particularly within the ML model of HF context. This transition is inspired by existing frameworks and is adapted to suit the unique characteristics of the HF model ecosystem. Our report serves as a guiding framework for researchers, contributing to the responsible and sustainable advancement of ML, and fostering a deeper understanding of the broader implications of ML models.
Abstract（参考訳）: 機械学習(ML)と人工知能(Artificial Intelligence)の急速に発展する分野は、Hugging Face(HF)のようなプラットフォームをモデル開発と共有のハブとして台頭している。この経験報告は、HFに関する2つの総合的な研究から洞察を合成し、二酸化炭素排出量とMLモデルの進化的および保守的側面に焦点を当てる。本研究の目的は,これらの研究の質を高めるため,HFエコシステム内のソフトウェアリポジトリ研究の実践的ガイドを提供することである。我々は、我々の研究で使われている複製パッケージの複雑さを掘り下げ、分析を容易にする重要なツールと方法論を強調した。さらに,多様なhfハブデータセット用に最適化されたニュアンス階層化サンプリング戦略を提案する。また、レポジトリマイニングからコホート研究への移行、特にHFコンテキストのMLモデルにおけるレポジトリマイニング研究の因果性を確立するための予備的ガイドラインも導入している。この移行は既存のフレームワークにインスパイアされ、HFモデルエコシステムのユニークな特徴に適合するように適応されている。本報告は、研究者の指導的枠組みとして機能し、MLの責任と持続可能な進歩に貢献し、MLモデルのより広範な意味に関する深い理解を促進する。

関連論文リスト

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文参考訳（メタデータ） (2025-08-11T01:26:16Z)
Data Heterogeneity Modeling for Trustworthy Machine Learning [25.732841312561586]
データの不均一性は、機械学習(ML)システムの性能を決定する上で重要な役割を果たす。伝統的なアルゴリズムは、しばしばデータセットの固有の多様性を見落としている。データ多様性の深い理解によって、モデルの堅牢性、公正性、信頼性が向上することを示す。
論文参考訳（メタデータ） (2025-06-01T11:36:56Z)
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models [58.98176123850354]
最近のDeepSeek-R1のリリースは、広く社会的影響をもたらし、言語モデルの明確な推論パラダイムを探求する研究コミュニティに熱意を喚起した。リリースされたモデルの実装詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留された小型モデルなど、DeepSeekによって完全にオープンソース化されていない。多くのレプリケーション研究は、DeepSeek-R1が達成した強力なパフォーマンスを再現することを目的として、同様のトレーニング手順と完全なオープンソースデータリソースを通じて、同等のパフォーマンスに到達している。
論文参考訳（メタデータ） (2025-05-01T14:28:35Z)
Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond [38.32974480709081]
機械学習(ML)と人工知能(AI)の急速な出現は、化学に大きな変革をもたらした。分光・分光データへのこれらの手法の適用は、分光機械学習(SpectraML)と呼ばれるが、いまだに研究が進んでいない。我々はSpectraMLの統一的なレビューを行い、フォワードタスクと逆タスクの両方に対する最先端のアプローチを体系的に検証する。
論文参考訳（メタデータ） (2025-02-14T04:07:25Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文参考訳（メタデータ） (2024-08-22T07:33:11Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文参考訳（メタデータ） (2024-04-12T15:54:15Z)
Analyzing the Evolution and Maintenance of ML Models on Hugging Face [8.409033836300761]
Hugging Face(HF)は、マシンラーニング(ML)モデルの開発と共有のための重要なプラットフォームとして、自らを確立している。このリポジトリマイニング調査は、HF Hub API経由で収集されたデータを使用して、380,000以上のモデルに分類し、HFにホストされたモデルに関するコミュニティの関与、進化、メンテナンスを探求することを目的としている。
論文参考訳（メタデータ） (2023-11-22T13:20:25Z)
Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文参考訳（メタデータ） (2023-07-12T16:28:21Z)
Closing the loop: Autonomous experiments enabled by machine-learning-based online data analysis in synchrotron beamline environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文参考訳（メタデータ） (2023-06-20T21:21:19Z)
Less is More: A Call to Focus on Simpler Models in Genetic Programming for Interpretable Machine Learning [1.0323063834827415]
解釈可能性(interpretability)は、ハイテイクなアプリケーションにおける機械学習モデルの安全かつ責任ある使用に不可欠である。 GP for IMLの研究は、低複雑さモデルにおける探索に重点を置く必要があると我々は主張する。
論文参考訳（メタデータ） (2022-04-05T08:28:07Z)
MUC-driven Feature Importance Measurement and Adversarial Analysis for Random Forest [1.5896078006029473]
我々は形式的手法と論理的推論を活用して、ランダムフォレスト(RF)の予測を説明する新しいモデル固有の方法を開発した。提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。提案手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。
論文参考訳（メタデータ） (2022-02-25T06:15:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。