論文の概要: Deep Learning Model Reuse in the HuggingFace Community: Challenges,
Benefit and Trends
- arxiv url: http://arxiv.org/abs/2401.13177v1
- Date: Wed, 24 Jan 2024 01:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:41:03.174987
- Title: Deep Learning Model Reuse in the HuggingFace Community: Challenges,
Benefit and Trends
- Title(参考訳): HuggingFaceコミュニティにおけるディープラーニングモデルの再利用 - チャレンジ,ベネフィット,トレンド
- Authors: Mina Taraghi, Gianolli Dorcelus, Armstrong Foundjem, Florian Tambon,
Foutse Khomh
- Abstract要約: 大規模事前学習モデル(PTM)の普及が進み、モデルハブやPTMをホストする専用のプラットフォームへの関心が高まっている。
本研究は, PTM の再利用に伴う課題とメリットの分類をコミュニティ内で提示する。
本研究は,初心者ユーザに対する限られたガイダンス,トレーニングや推論におけるモデルアウトプットの理解性の難しさ,モデル理解の欠如など,一般的な課題に注目した。
- 参考スコア(独自算出の注目度): 12.645960268553686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of large-scale Pre-Trained Models (PTMs) is on the rise,
sparking interest in model hubs, and dedicated platforms for hosting PTMs.
Despite this trend, a comprehensive exploration of the challenges that users
encounter and how the community leverages PTMs remains lacking. To address this
gap, we conducted an extensive mixed-methods empirical study by focusing on
discussion forums and the model hub of HuggingFace, the largest public model
hub. Based on our qualitative analysis, we present a taxonomy of the challenges
and benefits associated with PTM reuse within this community. We then conduct a
quantitative study to track model-type trends and model documentation evolution
over time. Our findings highlight prevalent challenges such as limited guidance
for beginner users, struggles with model output comprehensibility in training
or inference, and a lack of model understanding. We also identified interesting
trends among models where some models maintain high upload rates despite a
decline in topics related to them. Additionally, we found that despite the
introduction of model documentation tools, its quantity has not increased over
time, leading to difficulties in model comprehension and selection among users.
Our study sheds light on new challenges in reusing PTMs that were not reported
before and we provide recommendations for various stakeholders involved in PTM
reuse.
- Abstract(参考訳): 大規模な事前学習モデル(PTM)の普及は、モデルハブへの関心を喚起し、PTMをホストする専用のプラットフォームも生まれている。
この傾向にもかかわらず、ユーザが直面する課題とコミュニティのPTM活用方法に関する包括的な調査は、まだ不十分である。
このギャップに対処するため,我々は,公開モデルハブであるHugingFaceのディスカッションフォーラムとモデルハブに焦点をあてて,多種多様な実験を行った。
質的な分析に基づいて,PTMの再利用に伴う課題とメリットの分類をコミュニティ内で提示する。
次に,モデル型トレンドとモデルドキュメントの進化を追跡する定量的研究を行った。
本研究は,初心者向けガイダンスの制限,モデルアウトプット理解のトレーニングや推論の難しさ,モデル理解の欠如など,一般的な課題を浮き彫りにしている。
また、関連するトピックの減少にもかかわらず、高いアップロード率を維持するモデルで興味深い傾向を見出した。
さらに,モデルドキュメンテーションツールの導入にもかかわらず,その量は時間とともに増加せず,モデル理解やユーザの選択に困難が伴うことがわかった。
本研究は,これまで報告されていない PTM の再利用における新たな課題と,PTM の再利用に関わる様々な利害関係者に対する推奨事項を明らかにした。
関連論文リスト
- Self-Supervised Learning for Time Series: A Review & Critique of FITS [0.0]
最近提案されたモデルFITSは、パラメータ数を大幅に削減した競合性能を主張する。
複雑な周波数領域で1層ニューラルネットワークをトレーニングすることで、これらの結果を再現することができる。
実験の結果,FITSは特に周期パターンや季節パターンの捕集に優れるが,トレンド,非周期的,ランダムな組立行動に苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T23:03:09Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Leveraging Multiple Relations for Fashion Trend Forecasting Based on
Social Media [72.06420633156479]
Relation Enhanced Attention Recurrent(REAR)ネットワークという改良モデルを提案する。
KERNと比較して、REARモデルはファッション要素間の関係だけでなく、ユーザグループ間の関係も活用する。
長期トレンド予測の性能をさらに向上させるために、REAR法はスライディング時間的注意メカニズムを考案する。
論文 参考訳(メタデータ) (2021-05-07T14:52:03Z) - DoubleEnsemble: A New Ensemble Method Based on Sample Reweighting and
Feature Selection for Financial Data Analysis [22.035287788330663]
学習軌道に基づくサンプル再重み付けとシャッフルに基づく特徴選択を利用したアンサンブルフレームワークであるDoubleEnsembleを提案する。
我々のモデルは、複雑なパターンを抽出できる幅広い基盤モデルに適用でき、金融市場の予測に過度に適合し、不安定な問題を緩和できる。
論文 参考訳(メタデータ) (2020-10-03T02:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。