論文の概要: Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements
- arxiv url: http://arxiv.org/abs/2210.01970v2
- Date: Thu, 6 Oct 2022 16:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 17:01:55.216573
- Title: Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements
- Title(参考訳): ハブの評価と評価:データとモデル計測のためのより良いベストプラクティス
- Authors: Leandro von Werra, Lewis Tunstall, Abhishek Thakur, Alexandra Sasha
Luccioni, Tristan Thrush, Aleksandra Piktus, Felix Marty, Nazneen Rajani,
Victor Mustar, Helen Ngo, Omar Sanseviero, Mario \v{S}a\v{s}ko, Albert
Villanova, Quentin Lhoest, Julien Chaumond, Margaret Mitchell, Alexander M.
Rush, Thomas Wolf, Douwe Kiela
- Abstract要約: Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
- 参考スコア(独自算出の注目度): 167.73134600289603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is a key part of machine learning (ML), yet there is a lack of
support and tooling to enable its informed and systematic practice. We
introduce Evaluate and Evaluation on the Hub --a set of tools to facilitate the
evaluation of models and datasets in ML. Evaluate is a library to support best
practices for measurements, metrics, and comparisons of data and models. Its
goal is to support reproducibility of evaluation, centralize and document the
evaluation process, and broaden evaluation to cover more facets of model
performance. It includes over 50 efficient canonical implementations for a
variety of domains and scenarios, interactive documentation, and the ability to
easily share implementations and outcomes. The library is available at
https://github.com/huggingface/evaluate. In addition, we introduce Evaluation
on the Hub, a platform that enables the large-scale evaluation of over 75,000
models and 11,000 datasets on the Hugging Face Hub, for free, at the click of a
button. Evaluation on the Hub is available at
https://huggingface.co/autoevaluate.
- Abstract(参考訳): 評価は機械学習(ML)の重要な部分ですが、その情報と体系的なプラクティスを実現するためのサポートとツーリングが欠如しています。
mlにおけるモデルやデータセットの評価を容易にするツールセットであるhub -- の評価と評価について紹介する。
evaluationは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
その目標は、評価の再現性をサポートし、評価プロセスの集中化と文書化を行い、モデルパフォーマンスのより多くの側面をカバーするために評価を広げることである。
さまざまなドメインやシナリオの50以上の効率的な標準実装、インタラクティブなドキュメント、実装や成果を簡単に共有できる機能が含まれている。
このライブラリはhttps://github.com/huggingface/evaluateで入手できる。
さらに,Hugging Face Hub上で75,000以上のモデルと11,000のデータセットを,ボタンをクリックするだけで大規模に評価できるプラットフォームであるAccess on the Hubを紹介した。
Hubの評価はhttps://huggingface.co/autoevaluate.comで確認できる。
関連論文リスト
- Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Summary Workbench: Unifying Application and Evaluation of Text
Summarization Models [24.40171915438056]
新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。
複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
論文 参考訳(メタデータ) (2022-10-18T04:47:25Z) - On the Evaluation of RGB-D-based Categorical Pose and Shape Estimation [5.71097144710995]
この研究では、メトリクスやデータセットを含む、この主要な評価プロトコルを批判的に見ていきます。
我々は、新しいメトリクスセットを提案し、Redwoodデータセットに新しいアノテーションを提供し、公正な比較で最先端の手法を評価する。
論文 参考訳(メタデータ) (2022-02-21T16:31:18Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。