論文の概要: Fill in the BLANC: Human-free quality estimation of document summaries
- arxiv url: http://arxiv.org/abs/2002.09836v2
- Date: Wed, 11 Nov 2020 20:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:47:43.446295
- Title: Fill in the BLANC: Human-free quality estimation of document summaries
- Title(参考訳): BLANCにおける充足:文書要約の人為的品質評価
- Authors: Oleg Vasilyev, Vedant Dharnidharka, John Bohannon
- Abstract要約: 本稿では,文書要約品質の自動推定手法であるBLANCを提案する。
BLANCスコアは、ROUGEファミリーの要約品質測定と同様、人間の評価と良好な相関関係を持つ。
- 参考スコア(独自算出の注目度): 11.92436948211501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BLANC, a new approach to the automatic estimation of document
summary quality. Our goal is to measure the functional performance of a summary
with an objective, reproducible, and fully automated method. Our approach
achieves this by measuring the performance boost gained by a pre-trained
language model with access to a document summary while carrying out its
language understanding task on the document's text. We present evidence that
BLANC scores have as good correlation with human evaluations as do the ROUGE
family of summary quality measurements. And unlike ROUGE, the BLANC method does
not require human-written reference summaries, allowing for fully human-free
summary quality estimation.
- Abstract(参考訳): 本稿では,文書要約品質の自動推定手法であるBLANCを提案する。
我々の目標は、目的、再現可能、そして完全に自動化された方法で要約の機能性能を測定することである。
本手法は,事前学習した言語モデルによる文書要約へのアクセスによる性能向上を,文書のテキスト上で言語理解タスクを実行しながら測定することで実現する。
我々は,BLANCスコアが,ROUGEファミリーの要約品質測定と同等の相関性を持つことを示す。
また,ROUGEと異なり,BLANC法では人手による参照要約を必要とせず,完全人手による要約品質評価が可能である。
関連論文リスト
- A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Play the Shannon Game With Language Models: A Human-Free Approach to
Summary Evaluation [0.0]
本稿では,事前学習言語モデルを用いて文書と要約間で共有される情報を推定する,新たな要約評価指標を提案する。
これらのメトリクスは、数十年前に提案された品質スコアの要約方法であるShannon Gameの現代的な試みです。
紹介された指標が,カバレッジ,全体的な品質,5つの要約次元に基づいて,人間の判断と相関していることを実証的に検証した。
論文 参考訳(メタデータ) (2021-03-19T17:27:58Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。