論文の概要: Towards Human-Free Automatic Quality Evaluation of German Summarization
- arxiv url: http://arxiv.org/abs/2105.06027v1
- Date: Thu, 13 May 2021 01:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 23:59:03.436211
- Title: Towards Human-Free Automatic Quality Evaluation of German Summarization
- Title(参考訳): ドイツ語要約の人間フリー自動品質評価に向けて
- Authors: Neslihan Iskender, Oleg Vasilyev, Tim Polzehl, John Bohannon,
Sebastian M\"oller
- Abstract要約: この作品は、英語以外の言語にBLANCメトリックを調整する方法を示しています。
私たちは、BLANCスコアと群衆と専門家の評価、およびドイツの要約データセットで一般的に使用される自動メトリクスを比較します。
以上の結果から,ドイツ語のBLANCは情報性の評価に特に有用であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large summarization corpora using humans has proven to be
expensive from both the organizational and the financial perspective.
Therefore, many automatic evaluation metrics have been developed to measure the
summarization quality in a fast and reproducible way. However, most of the
metrics still rely on humans and need gold standard summaries generated by
linguistic experts. Since BLANC does not require golden summaries and
supposedly can use any underlying language model, we consider its application
to the evaluation of summarization in German. This work demonstrates how to
adjust the BLANC metric to a language other than English. We compare BLANC
scores with the crowd and expert ratings, as well as with commonly used
automatic metrics on a German summarization data set. Our results show that
BLANC in German is especially good in evaluating informativeness.
- Abstract(参考訳): ヒトを用いた大規模な要約コーパスの評価は,組織的,財政的両面から高く評価されている。
そのため, 要約品質を迅速かつ再現可能な方法で測定するために, 自動評価指標が多数開発されている。
しかし、指標のほとんどはまだ人間に依存しており、言語の専門家が生成する金の標準要約が必要である。
BLANCは黄金の要約を必要とせず、基礎となる言語モデルも利用できると考えられるため、ドイツ語の要約評価への応用を検討する。
この研究は、BLANCメトリックを英語以外の言語に調整する方法を示す。
我々は、BLANCのスコアを、ドイツの要約データセットで一般的に使用される自動メトリクスと同様に、群衆や専門家の評価と比較する。
以上の結果から,ドイツ語のBLANCは情報性の評価に特に有用であることが示唆された。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - BMX: Boosting Natural Language Generation Metrics with Explainability [23.8476163398993]
BMX: 説明責任を伴う自然言語生成メトリクスの強化は、メトリクスのパフォーマンスを高めるために説明を明示的に活用します。
本テストでは,MTおよび要約データセット間の複数のメトリクスの改善を示す。
論文 参考訳(メタデータ) (2022-12-20T17:41:18Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。