論文の概要: Re-evaluating Evaluation in Text Summarization
- arxiv url: http://arxiv.org/abs/2010.07100v1
- Date: Wed, 14 Oct 2020 13:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:51:51.358773
- Title: Re-evaluating Evaluation in Text Summarization
- Title(参考訳): テキスト要約における再評価
- Authors: Manik Bhandari, Pranav Gour, Atabak Ashfaq, Pengfei Liu and Graham
Neubig
- Abstract要約: トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
- 参考スコア(独自算出の注目度): 77.4601291738445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated evaluation metrics as a stand-in for manual evaluation are an
essential part of the development of text-generation tasks such as text
summarization. However, while the field has progressed, our standard metrics
have not -- for nearly 20 years ROUGE has been the standard evaluation in most
summarization papers. In this paper, we make an attempt to re-evaluate the
evaluation method for text summarization: assessing the reliability of
automatic metrics using top-scoring system outputs, both abstractive and
extractive, on recently popular datasets for both system-level and
summary-level evaluation settings. We find that conclusions about evaluation
metrics on older datasets do not necessarily hold on modern datasets and
systems.
- Abstract(参考訳): 手動評価のためのスタンドインとしての自動評価指標は、テキスト要約などのテキスト生成タスクの開発において不可欠な部分である。
しかしながら、この分野は進展していますが、私たちの標準メトリクスは、ほとんど20年近くの間、要約論文の標準評価でした。
本稿では,テキスト要約の評価手法を再評価する試みとして,システムレベルの評価設定と要約レベルの評価設定の両方で最近普及しているデータセットに対して,トップスコアシステム出力と抽出の両方を用いて,自動メトリクスの信頼性を評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
関連論文リスト
- A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation [28.438103177230477]
長文要約の事実整合性を評価するための自動測度の有効性を評価する。
本稿では,文書要約データセットの評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - RISE: Leveraging Retrieval Techniques for Summarization Evaluation [3.9215337270154995]
本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
論文 参考訳(メタデータ) (2022-12-17T01:09:22Z) - Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods [42.08097583183816]
本稿では,新たなデータセット,ポッドキャスト要約評価コーパスについて述べる。
このデータセットには、2つのユニークな側面がある: (i)ロングインプット、音声ポッドキャストベース、文書; (ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
論文 参考訳(メタデータ) (2022-08-28T18:24:41Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。