Fugu-MT 論文翻訳(概要): Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements

論文の概要: Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements

arxiv url: http://arxiv.org/abs/2210.01970v2
Date: Thu, 6 Oct 2022 16:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 17:01:55.216573
Title: Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements
Title（参考訳）: ハブの評価と評価:データとモデル計測のためのより良いベストプラクティス
Authors: Leandro von Werra, Lewis Tunstall, Abhishek Thakur, Alexandra Sasha Luccioni, Tristan Thrush, Aleksandra Piktus, Felix Marty, Nazneen Rajani, Victor Mustar, Helen Ngo, Omar Sanseviero, Mario \v{S}a\v{s}ko, Albert Villanova, Quentin Lhoest, Julien Chaumond, Margaret Mitchell, Alexander M. Rush, Thomas Wolf, Douwe Kiela
Abstract要約: Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
参考スコア（独自算出の注目度）: 167.73134600289603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluation is a key part of machine learning (ML), yet there is a lack of support and tooling to enable its informed and systematic practice. We introduce Evaluate and Evaluation on the Hub --a set of tools to facilitate the evaluation of models and datasets in ML. Evaluate is a library to support best practices for measurements, metrics, and comparisons of data and models. Its goal is to support reproducibility of evaluation, centralize and document the evaluation process, and broaden evaluation to cover more facets of model performance. It includes over 50 efficient canonical implementations for a variety of domains and scenarios, interactive documentation, and the ability to easily share implementations and outcomes. The library is available at https://github.com/huggingface/evaluate. In addition, we introduce Evaluation on the Hub, a platform that enables the large-scale evaluation of over 75,000 models and 11,000 datasets on the Hugging Face Hub, for free, at the click of a button. Evaluation on the Hub is available at https://huggingface.co/autoevaluate.
Abstract（参考訳）: 評価は機械学習(ML)の重要な部分ですが、その情報と体系的なプラクティスを実現するためのサポートとツーリングが欠如しています。 mlにおけるモデルやデータセットの評価を容易にするツールセットであるhub -- の評価と評価について紹介する。 evaluationは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。その目標は、評価の再現性をサポートし、評価プロセスの集中化と文書化を行い、モデルパフォーマンスのより多くの側面をカバーするために評価を広げることである。さまざまなドメインやシナリオの50以上の効率的な標準実装、インタラクティブなドキュメント、実装や成果を簡単に共有できる機能が含まれている。このライブラリはhttps://github.com/huggingface/evaluateで入手できる。さらに,Hugging Face Hub上で75,000以上のモデルと11,000のデータセットを,ボタンをクリックするだけで大規模に評価できるプラットフォームであるAccess on the Hubを紹介した。 Hubの評価はhttps://huggingface.co/autoevaluate.comで確認できる。

関連論文リスト

EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。 EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。 EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文参考訳（メタデータ） (2024-12-13T23:15:35Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文参考訳（メタデータ） (2024-03-13T07:31:20Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.40171915438056]
新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
論文参考訳（メタデータ） (2022-10-18T04:47:25Z)
On the Evaluation of RGB-D-based Categorical Pose and Shape Estimation [5.71097144710995]
この研究では、メトリクスやデータセットを含む、この主要な評価プロトコルを批判的に見ていきます。我々は、新しいメトリクスセットを提案し、Redwoodデータセットに新しいアノテーションを提供し、公正な比較で最先端の手法を評価する。
論文参考訳（メタデータ） (2022-02-21T16:31:18Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)
MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。 ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文参考訳（メタデータ） (2020-02-19T17:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。