論文の概要: SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2007.05374v1
- Date: Fri, 10 Jul 2020 13:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:00:10.222626
- Title: SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics
- Title(参考訳): SacreROUGE: 要約評価メトリクスの使用と開発のためのオープンソースライブラリ
- Authors: Daniel Deutsch, Dan Roth
- Abstract要約: SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
- 参考スコア(独自算出の注目度): 74.28810048824519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SacreROUGE, an open-source library for using and developing
summarization evaluation metrics. SacreROUGE removes many obstacles that
researchers face when using or developing metrics: (1) The library provides
Python wrappers around the official implementations of existing evaluation
metrics so they share a common, easy-to-use interface; (2) it provides
functionality to evaluate how well any metric implemented in the library
correlates to human-annotated judgments, so no additional code needs to be
written for a new evaluation metric; and (3) it includes scripts for loading
datasets that contain human judgments so they can easily be used for
evaluation. This work describes the design of the library, including the core
Metric interface, the command-line API for evaluating summarization models and
metrics, and the scripts to load and reformat publicly available datasets. The
development of SacreROUGE is ongoing and open to contributions from the
community.
- Abstract(参考訳): 要約評価メトリクスの使用と開発のためのオープンソースライブラリであるsacrerougeを提案する。
SacreROUGE removes many obstacles that researchers face when using or developing metrics: (1) The library provides Python wrappers around the official implementations of existing evaluation metrics so they share a common, easy-to-use interface; (2) it provides functionality to evaluate how well any metric implemented in the library correlates to human-annotated judgments, so no additional code needs to be written for a new evaluation metric; and (3) it includes scripts for loading datasets that contain human judgments so they can easily be used for evaluation.
本書では,コアメトリックインターフェース,要約モデルとメトリクスを評価するコマンドラインapi,公開データセットのロードと再構成を行うスクリプトなど,ライブラリの設計について説明する。
SacreROUGEの開発は進行中であり、コミュニティからの貢献も受けている。
関連論文リスト
- BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - Evaluate & Evaluation on the Hub: Better Best Practices for Data and
Model Measurements [167.73134600289603]
Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。
ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
論文 参考訳(メタデータ) (2022-09-30T18:35:39Z) - Document Intelligence Metrics for Visually Rich Document Evaluation [0.10499611180329803]
本稿では,VRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。
公開されているCORDデータセットを用いて情報抽出性能を評価するためにDI-Metricsを適用した。
論文 参考訳(メタデータ) (2022-05-23T11:55:05Z) - MISeval: a Metric Library for Medical Image Segmentation Evaluation [1.4680035572775534]
Pythonには標準化され再現可能な評価のための普遍的なメートル法ライブラリがない。
医用画像評価のためのメトリクスライブラリMISevalを提案する。
論文 参考訳(メタデータ) (2022-01-23T23:06:47Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。