論文の概要: Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements
- arxiv url: http://arxiv.org/abs/2210.01970v2
- Date: Thu, 6 Oct 2022 16:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 17:01:55.216573
- Title: Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements
- Title(参考訳): ハブの評価と評価:データとモデル計測のためのより良いベストプラクティス
- Authors: Leandro von Werra, Lewis Tunstall, Abhishek Thakur, Alexandra Sasha
Luccioni, Tristan Thrush, Aleksandra Piktus, Felix Marty, Nazneen Rajani,
Victor Mustar, Helen Ngo, Omar Sanseviero, Mario \v{S}a\v{s}ko, Albert
Villanova, Quentin Lhoest, Julien Chaumond, Margaret Mitchell, Alexander M.
Rush, Thomas Wolf, Douwe Kiela
- Abstract要約: Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
- 参考スコア(独自算出の注目度): 167.73134600289603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is a key part of machine learning (ML), yet there is a lack of
support and tooling to enable its informed and systematic practice. We
introduce Evaluate and Evaluation on the Hub --a set of tools to facilitate the
evaluation of models and datasets in ML. Evaluate is a library to support best
practices for measurements, metrics, and comparisons of data and models. Its
goal is to support reproducibility of evaluation, centralize and document the
evaluation process, and broaden evaluation to cover more facets of model
performance. It includes over 50 efficient canonical implementations for a
variety of domains and scenarios, interactive documentation, and the ability to
easily share implementations and outcomes. The library is available at
https://github.com/huggingface/evaluate. In addition, we introduce Evaluation
on the Hub, a platform that enables the large-scale evaluation of over 75,000
models and 11,000 datasets on the Hugging Face Hub, for free, at the click of a
button. Evaluation on the Hub is available at
https://huggingface.co/autoevaluate.
- Abstract(参考訳): 評価は機械学習(ML)の重要な部分ですが、その情報と体系的なプラクティスを実現するためのサポートとツーリングが欠如しています。
mlにおけるモデルやデータセットの評価を容易にするツールセットであるhub -- の評価と評価について紹介する。
evaluationは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
その目標は、評価の再現性をサポートし、評価プロセスの集中化と文書化を行い、モデルパフォーマンスのより多くの側面をカバーするために評価を広げることである。
さまざまなドメインやシナリオの50以上の効率的な標準実装、インタラクティブなドキュメント、実装や成果を簡単に共有できる機能が含まれている。
このライブラリはhttps://github.com/huggingface/evaluateで入手できる。
さらに,Hugging Face Hub上で75,000以上のモデルと11,000のデータセットを,ボタンをクリックするだけで大規模に評価できるプラットフォームであるAccess on the Hubを紹介した。
Hubの評価はhttps://huggingface.co/autoevaluate.comで確認できる。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Summary Workbench: Unifying Application and Evaluation of Text
Summarization Models [24.40171915438056]
新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。
複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
論文 参考訳(メタデータ) (2022-10-18T04:47:25Z) - On the Evaluation of RGB-D-based Categorical Pose and Shape Estimation [5.71097144710995]
この研究では、メトリクスやデータセットを含む、この主要な評価プロトコルを批判的に見ていきます。
我々は、新しいメトリクスセットを提案し、Redwoodデータセットに新しいアノテーションを提供し、公正な比較で最先端の手法を評価する。
論文 参考訳(メタデータ) (2022-02-21T16:31:18Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。