論文の概要: WIDAR -- Weighted Input Document Augmented ROUGE
- arxiv url: http://arxiv.org/abs/2201.09282v1
- Date: Sun, 23 Jan 2022 14:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 10:15:05.180604
- Title: WIDAR -- Weighted Input Document Augmented ROUGE
- Title(参考訳): WIDAR -- 加重入力ドキュメント拡張ROUGE
- Authors: Raghav Jain, Vaibhav Mavi, Anubhav Jangra, Sriparna Saha
- Abstract要約: 提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
- 参考スコア(独自算出の注目度): 26.123086537577155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of automatic text summarization has gained a lot of traction due to
the recent advancements in machine learning techniques. However, evaluating the
quality of a generated summary remains to be an open problem. The literature
has widely adopted Recall-Oriented Understudy for Gisting Evaluation (ROUGE) as
the standard evaluation metric for summarization. However, ROUGE has some
long-established limitations; a major one being its dependence on the
availability of good quality reference summary. In this work, we propose the
metric WIDAR which in addition to utilizing the reference summary uses also the
input document in order to evaluate the quality of the generated summary. The
proposed metric is versatile, since it is designed to adapt the evaluation
score according to the quality of the reference summary. The proposed metric
correlates better than ROUGE by 26%, 76%, 82%, and 15%, respectively, in
coherence, consistency, fluency, and relevance on human judgement scores
provided in the SummEval dataset. The proposed metric is able to obtain
comparable results with other state-of-the-art metrics while requiring a
relatively short computational time.
- Abstract(参考訳): 自動テキスト要約のタスクは、最近の機械学習技術の進歩により、多くの注目を集めている。
しかし,生成要約の品質評価は未解決の問題である。
この文献は、要約の標準的な評価基準として、リコール指向のGisting Evaluation(ROUGE)を広く採用している。
しかし、rougeには古くからある制限があり、主なものは良質な参照要約の可用性に依存している。
そこで本研究では,参照要約の活用に加えて,生成した要約の質を評価するために,入力文書も利用するメトリクスWIDARを提案する。
提案手法は,基準要約の品質に応じて評価スコアを適応するように設計されているため,多用途である。
26%, 76%, 82%, 15%のルージュよりも高い相関関係を示し, 総和データセットで得られた判定スコアの一貫性, 一貫性, 流束性, 妥当性について検討した。
提案手法は, 計算時間を比較的短くしながら, 実測値と同等の結果を得ることができる。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。