Fugu-MT 論文翻訳(概要): SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics

論文の概要: SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics

arxiv url: http://arxiv.org/abs/2007.05374v1
Date: Fri, 10 Jul 2020 13:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 22:00:10.222626
Title: SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics
Title（参考訳）: SacreROUGE: 要約評価メトリクスの使用と開発のためのオープンソースライブラリ
Authors: Daniel Deutsch, Dan Roth
Abstract要約: SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
参考スコア（独自算出の注目度）: 74.28810048824519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present SacreROUGE, an open-source library for using and developing summarization evaluation metrics. SacreROUGE removes many obstacles that researchers face when using or developing metrics: (1) The library provides Python wrappers around the official implementations of existing evaluation metrics so they share a common, easy-to-use interface; (2) it provides functionality to evaluate how well any metric implemented in the library correlates to human-annotated judgments, so no additional code needs to be written for a new evaluation metric; and (3) it includes scripts for loading datasets that contain human judgments so they can easily be used for evaluation. This work describes the design of the library, including the core Metric interface, the command-line API for evaluating summarization models and metrics, and the scripts to load and reformat publicly available datasets. The development of SacreROUGE is ongoing and open to contributions from the community.
Abstract（参考訳）: 要約評価メトリクスの使用と開発のためのオープンソースライブラリであるsacrerougeを提案する。 SacreROUGE removes many obstacles that researchers face when using or developing metrics: (1) The library provides Python wrappers around the official implementations of existing evaluation metrics so they share a common, easy-to-use interface; (2) it provides functionality to evaluate how well any metric implemented in the library correlates to human-annotated judgments, so no additional code needs to be written for a new evaluation metric; and (3) it includes scripts for loading datasets that contain human judgments so they can easily be used for evaluation. 本書では,コアメトリックインターフェース,要約モデルとメトリクスを評価するコマンドラインapi,公開データセットのロードと再構成を行うスクリプトなど,ライブラリの設計について説明する。 SacreROUGEの開発は進行中であり、コミュニティからの貢献も受けている。

関連論文リスト

gec-metrics: A Unified Library for Grammatical Error Correction Evaluation [13.02513034520894]
gec-metricsは、文法的誤り訂正(GEC)評価メトリクスの使用と開発のためのライブラリである。本ライブラリは,全ての人が一貫した実装を用いて評価を行うことによって,公平なシステム比較を可能にする。私たちのコードはMITライセンスでリリースされており、インストール可能なパッケージとしても配布されています。
論文参考訳（メタデータ） (2025-05-26T01:10:16Z)
AllMetrics: A Unified Python Library for Standardized Metric Evaluation and Robust Data Validation in Machine Learning [2.325084918639609]
さまざまな機械学習タスクのメトリクス評価を標準化するために設計された,オープンソースの統一PythonライブラリであるAllMetricsを紹介した。このライブラリは、すべてのユースケースをカバーするパラメータを通して、マルチクラスタスクのクラス固有のレポートを実装している。医療、金融、不動産といった分野のさまざまなデータセットを私たちのライブラリに適用し、Python、Matlab、Rコンポーネントと比較しました。
論文参考訳（メタデータ） (2025-05-21T18:36:05Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文参考訳（メタデータ） (2023-11-06T18:59:01Z)
Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。 riSumを用いて評価方法と人的判断の一致を分析した。
論文参考訳（メタデータ） (2023-10-12T15:07:11Z)
Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements [167.73134600289603]
Assessmentは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。ハブの評価は、75,000モデルと11,000データセットの大規模評価を可能にするプラットフォームである。
論文参考訳（メタデータ） (2022-09-30T18:35:39Z)
Document Intelligence Metrics for Visually Rich Document Evaluation [0.10499611180329803]
本稿では,VRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。公開されているCORDデータセットを用いて情報抽出性能を評価するためにDI-Metricsを適用した。
論文参考訳（メタデータ） (2022-05-23T11:55:05Z)
MISeval: a Metric Library for Medical Image Segmentation Evaluation [1.4680035572775534]
Pythonには標準化され再現可能な評価のための普遍的なメートル法ライブラリがない。医用画像評価のためのメトリクスライブラリMISevalを提案する。
論文参考訳（メタデータ） (2022-01-23T23:06:47Z)
Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。 textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文参考訳（メタデータ） (2021-09-06T16:46:38Z)
Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。分類モデルと非分類モデルの両方に使用できる。
論文参考訳（メタデータ） (2020-09-16T18:57:57Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。