論文の概要: SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation
- arxiv url: http://arxiv.org/abs/2305.13194v2
- Date: Wed, 1 Nov 2023 22:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:45:29.667470
- Title: SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation
- Title(参考訳): SEAHORSE:要約評価のための多言語多面データセット
- Authors: Elizabeth Clark, Shruti Rijhwani, Sebastian Gehrmann, Joshua Maynez,
Roee Aharoni, Vitaly Nikolaev, Thibault Sellam, Aditya Siddhant, Dipanjan
Das, Ankur P. Parikh
- Abstract要約: 本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
- 参考スコア(独自算出の注目度): 52.186343500576214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable automatic evaluation of summarization systems is challenging due to
the multifaceted and subjective nature of the task. This is especially the case
for languages other than English, where human evaluations are scarce. In this
work, we introduce SEAHORSE, a dataset for multilingual, multifaceted
summarization evaluation. SEAHORSE consists of 96K summaries with human ratings
along 6 dimensions of text quality: comprehensibility, repetition, grammar,
attribution, main ideas, and conciseness, covering 6 languages, 9 systems and 4
datasets. As a result of its size and scope, SEAHORSE can serve both as a
benchmark to evaluate learnt metrics, as well as a large-scale resource for
training such metrics. We show that metrics trained with SEAHORSE achieve
strong performance on the out-of-domain meta-evaluation benchmarks TRUE
(Honovich et al., 2022) and mFACE (Aharoni et al., 2022). We make the SEAHORSE
dataset and metrics publicly available for future research on multilingual and
multifaceted summarization evaluation.
- Abstract(参考訳): タスクの多面的かつ主観的な性質から,要約システムの信頼性の高い自動評価は困難である。
これは特に、人間の評価が不足している英語以外の言語の場合である。
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
シーホースは96kの要約からなり、テキスト品質の6次元(理解性、繰り返し、文法、帰属性、主な考え、簡潔性)で、6つの言語、9つのシステム、4つのデータセットをカバーする。
サイズとスコープの結果として、SEAHORSEは学習したメトリクスを評価するためのベンチマークとしてだけでなく、そのようなメトリクスをトレーニングするための大規模なリソースとしても機能する。
本研究では,SEAHORSEでトレーニングした指標が,ドメイン外メタ評価ベンチマークTRUE(Honovich et al., 2022)とmFACE(Aharoni et al., 2022)で高い性能を示した。
我々はSEAHORSEデータセットとメトリクスを多言語および多面的要約評価の今後の研究のために公開する。
関連論文リスト
- Finding Replicable Human Evaluations via Stable Ranking Probability [28.87806354986128]
我々は、機械翻訳とその最先端の人的評価フレームワークMQMをケーススタディとして、信頼性の高い人的評価の設定方法を理解するために使用しています。
2つの言語対に関する研究は、再現性のある人間の評価研究を設計するための具体的な勧告を提供する。
論文 参考訳(メタデータ) (2024-04-01T20:50:13Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - LANS: Large-scale Arabic News Summarization Corpus [20.835296945483275]
我々は、アラビア文字要約タスクのための大規模かつ多様なデータセットであるLANSを構築している。
LANSは、1999年から2019年の間に新聞のウェブサイトから抽出した840万記事と要約を提供している。
論文 参考訳(メタデータ) (2022-10-24T20:54:01Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。