論文の概要: Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation
- arxiv url: http://arxiv.org/abs/2503.15222v1
- Date: Wed, 19 Mar 2025 14:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:09.025082
- Title: Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation
- Title(参考訳): Model HubsとBeyond: モデルの人気度、パフォーマンス、ドキュメントの分析
- Authors: Pritam Kadasi, Sriman Reddy, Srivathsa Vamsi Chaturvedula, Rudranshu Sen, Agnish Saha, Soumavo Sikdar, Sayani Sarkar, Suhani Mittal, Rohit Jindal, Mayank Singh,
- Abstract要約: 我々はHugging Face上で500Sentiment Analysisモデルを総合的に評価した。
以上の結果から,モデルの人気度は必ずしも性能と相関しないことが明らかとなった。
下流タスクに適したモデルを選択するためのガイドラインのチェックリストを提供する。
- 参考スコア(独自算出の注目度): 1.2888930658406668
- License:
- Abstract: With the massive surge in ML models on platforms like Hugging Face, users often lose track and struggle to choose the best model for their downstream tasks, frequently relying on model popularity indicated by download counts, likes, or recency. We investigate whether this popularity aligns with actual model performance and how the comprehensiveness of model documentation correlates with both popularity and performance. In our study, we evaluated a comprehensive set of 500 Sentiment Analysis models on Hugging Face. This evaluation involved massive annotation efforts, with human annotators completing nearly 80,000 annotations, alongside extensive model training and evaluation. Our findings reveal that model popularity does not necessarily correlate with performance. Additionally, we identify critical inconsistencies in model card reporting: approximately 80\% of the models analyzed lack detailed information about the model, training, and evaluation processes. Furthermore, about 88\% of model authors overstate their models' performance in the model cards. Based on our findings, we provide a checklist of guidelines for users to choose good models for downstream tasks.
- Abstract(参考訳): Hugging Faceのようなプラットフォーム上でのMLモデルの急増により、ユーザはトラックを失い、ダウンストリームタスクの最良のモデルを選択するのに苦労することが多く、ダウンロード数、いいね!
この人気が実際のモデル性能と一致しているか、そしてモデルドキュメントの包括性は、人気とパフォーマンスの両方とどのように相関するかを検討する。
本研究では,Hugging Face を用いた500Sentiment Analysis モデルを総合的に評価した。
この評価には大規模なアノテーションの取り組みが含まれており、人間のアノテーションは、広範囲なモデルトレーニングと評価とともに、約8万のアノテーションを完了した。
以上の結果から,モデルの人気度は必ずしも性能と相関しないことが明らかとなった。
さらに、モデルカードレポートにおける重要な矛盾を識別する: 分析したモデルの約80%は、モデル、トレーニング、評価プロセスに関する詳細な情報を欠いている。
さらに、モデル作成者の88%がモデルカードでモデルの性能を誇張している。
この結果に基づき、下流タスクに適したモデルを選択するためのガイドラインのチェックリストを提供する。
関連論文リスト
- Model Provenance Testing for Large Language Models [14.949325775620439]
あるモデルが別のモデルから派生しているかどうかをテストするためのフレームワークを開発します。
我々のアプローチは、実世界のモデル導出がモデル出力のかなりの類似性を保っているというキーとなる観察に基づいている。
モデルに対するブラックボックスアクセスのみを用いて、関係のないモデルによって確立されたベースラインとモデル類似性を比較するために、複数の仮説テストを用いる。
論文 参考訳(メタデータ) (2025-02-02T07:39:37Z) - CGI: Identifying Conditional Generative Models with Example Images [14.453885742032481]
生成モデルは近年顕著なパフォーマンスを達成しており、モデルハブが出現している。
ユーザがモデル記述やサンプルイメージをレビューするのは簡単ではない。
本稿では,ユーザが提供するサンプル画像を用いて,最も適切なモデルを特定することを目的とした生成モデル同定(CGI)を提案する。
論文 参考訳(メタデータ) (2025-01-23T09:31:06Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - What's documented in AI? Systematic Analysis of 32K AI Model Cards [40.170354637778345]
我々は、Hugging Face上で32,111のAIモデルドキュメンテーションを包括的に分析する。
かなりダウンロードされたAIモデルのほとんどはモデルカードを提供するが、カードには不明確な情報がある。
その結果, 環境影響, 限界, 評価に対処する区間は, 最下位の充足率を示す一方, トレーニング区間は最下位の充足率を示すことがわかった。
論文 参考訳(メタデータ) (2024-02-07T18:04:32Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。