論文の概要: DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely
- arxiv url: http://arxiv.org/abs/2212.10013v2
- Date: Sun, 26 Nov 2023 05:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:03:29.646737
- Title: DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely
- Title(参考訳): DocAsRef: 参照ベースの概要品質基準を自由に再利用する実証的研究
- Authors: Forrest Sheng Bao, Ruixuan Tu, Ge Luo, Yinfei Yang, Hebi Li, Minghui
Qiu, Youbiao He, Cen Chen
- Abstract要約: そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
- 参考スコア(独自算出の注目度): 29.4981129248937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated summary quality assessment falls into two categories:
reference-based and reference-free. Reference-based metrics, historically
deemed more accurate due to the additional information provided by
human-written references, are limited by their reliance on human input. In this
paper, we hypothesize that the comparison methodologies used by some
reference-based metrics to evaluate a system summary against its corresponding
reference can be effectively adapted to assess it against its source document,
thereby transforming these metrics into reference-free ones. Experimental
results support this hypothesis. After being repurposed reference-freely, the
zero-shot BERTScore using the pretrained DeBERTa-large-MNLI model of <0.5B
parameters consistently outperforms its original reference-based version across
various aspects on the SummEval and Newsroom datasets. It also excels in
comparison to most existing reference-free metrics and closely competes with
zero-shot summary evaluators based on GPT-3.5.
- Abstract(参考訳): 自動要約品質評価は、参照ベースと参照フリーの2つのカテゴリに分類される。
人間が書いた参照から得られる追加情報によって歴史的により正確と考えられる参照ベースのメトリクスは、人間の入力に依存して制限される。
本稿では,システムサマリーとシステムサマリーを比較するための基準ベースメトリクスの比較手法を,そのソース文書に対する評価に効果的に適用し,これらのメトリクスを基準フリーに変換できると仮定する。
実験結果はこの仮説を支持する。
参照フリーで再利用された後、<0.5Bパラメータの事前訓練されたDeBERTa-large-MNLIモデルを使用したゼロショットBERTScoreは、SummEvalおよびNewsroomデータセットのさまざまな側面において、オリジナルの参照ベースバージョンを一貫して上回っている。
また、既存の参照フリーメトリクスと比べて優れているし、gpt-3.5に基づいたゼロショットサマリーエミュレータと密接に競合する。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。