論文の概要: Jury: A Comprehensive Evaluation Toolkit
- arxiv url: http://arxiv.org/abs/2310.02040v1
- Date: Tue, 3 Oct 2023 13:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:08:24.730468
- Title: Jury: A Comprehensive Evaluation Toolkit
- Title(参考訳): Jury: 総合評価ツールキット
- Authors: Devrim Cavusoglu, Ulas Sert, Secil Sen, Sinan Altinuc
- Abstract要約: さまざまなタスクやメトリクスに対して評価を行うための標準化された構造を備えた統一的な評価フレームワークを提供するツールキットである陪審を導入する。
陪審の目的は、すべてのシステムに対するメートル法評価の標準化と改善であり、評価の課題を克服するコミュニティを支援することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluation plays a critical role in deep learning as a fundamental block of
any prediction-based system. However, the vast number of Natural Language
Processing (NLP) tasks and the development of various metrics have led to
challenges in evaluating different systems with different metrics. To address
these challenges, we introduce jury, a toolkit that provides a unified
evaluation framework with standardized structures for performing evaluation
across different tasks and metrics. The objective of jury is to standardize and
improve metric evaluation for all systems and aid the community in overcoming
the challenges in evaluation. Since its open-source release, jury has reached a
wide audience and is available at https://github.com/obss/jury.
- Abstract(参考訳): 評価は、予測に基づくシステムの基本的なブロックとして、ディープラーニングにおいて重要な役割を果たす。
しかし、膨大な数の自然言語処理(NLP)タスクと様々なメトリクスの開発が、異なるメトリクスで異なるシステムを評価する上での課題につながっている。
これらの課題に対処するために、さまざまなタスクやメトリクスに対して評価を行うための標準化された構造を備えた統一的な評価フレームワークである陪審を導入する。
陪審の目的は、すべてのシステムのメートル法評価を標準化し改善し、評価の課題を克服するコミュニティを支援することである。
オープンソースリリース以来、陪審は幅広い読者にリーチし、https://github.com/obss/jury.comで入手できる。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Fairness and underspecification in acoustic scene classification: The
case for disaggregated evaluations [6.186191586944725]
機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。
本研究では,アコースティックシーン分類(ASC)モデルに対して,非凝集評価によるより包括的な評価プロセスの必要性を論じる。
本研究では,2つの広く使用されているASCデータセットを用いたトレーニングにおいて,不特定性や公平性の問題を明らかにする上で,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-04T15:23:01Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。