論文の概要: Metrics also Disagree in the Low Scoring Range: Revisiting Summarization
Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2011.04096v1
- Date: Sun, 8 Nov 2020 22:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:01:36.542292
- Title: Metrics also Disagree in the Low Scoring Range: Revisiting Summarization
Evaluation Metrics
- Title(参考訳): 低スコーリング範囲におけるメトリクスの認識:要約評価基準の再検討
- Authors: Manik Bhandari, Pranav Gour, Atabak Ashfaq, Pengfei Liu
- Abstract要約: ある模範的な研究は、ハイスコアの要約をランク付けする際、自動メトリクスは強く反対する、と結論付けている。
彼らの観察は、測定値が任意の狭いスコア範囲のサマリーのランク付けに一致しないという事実に起因していることが判明した。
要約のスコアリング範囲の幅は別として、測度間合意に影響を及ぼす他の3つの特性を解析する。
- 参考スコア(独自算出の注目度): 20.105119107290488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text summarization, evaluating the efficacy of automatic metrics without
human judgments has become recently popular. One exemplar work concludes that
automatic metrics strongly disagree when ranking high-scoring summaries. In
this paper, we revisit their experiments and find that their observations stem
from the fact that metrics disagree in ranking summaries from any narrow
scoring range. We hypothesize that this may be because summaries are similar to
each other in a narrow scoring range and are thus, difficult to rank. Apart
from the width of the scoring range of summaries, we analyze three other
properties that impact inter-metric agreement - Ease of Summarization,
Abstractiveness, and Coverage. To encourage reproducible research, we make all
our analysis code and data publicly available.
- Abstract(参考訳): テキスト要約では,人的判断を伴わない自動測定器の有効性評価が最近普及している。
ある例では、高スコアの要約をランク付けする場合、自動メトリクスは強く一致しない、と結論付けている。
本稿では,これらの実験を振り返って,測定値が狭いスコア範囲の要約ランキングに不一致であることに起因していることを示す。
これは、サマリーが狭いスコア範囲で互いに類似しており、したがってランク付けが難しいためかもしれないと仮定する。
要約のスコアリング範囲の幅とは別に,メトリクス間の合意に影響を及ぼす3つの特性(要約の容易さ,抽象性,カバレッジ)を分析した。
再現可能な研究を促進するため、分析コードとデータを公開しています。
関連論文リスト
- Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation [21.650619533772232]
「本研究は、要約文の表層的属性が事実性を予測するのに十分であるか否かを調査する。」
そして, 実測値が矛盾した要約の事実修正にどのように反応するかを評価し, 有意義な改善を示すものはごくわずかであることを確認した。
これらの知見に触発されて、生成した要約に無害な文を付加することにより、(最も)自動的事実性指標、すなわち、確実に事実性スコアをインフレーションすることができることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:15:15Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Improving Factual Consistency of Abstractive Summarization via Question
Answering [25.725873545789046]
要約における事実整合性に対処するアプローチを提案する。
まず,実体整合性を測定するための効率的な自動評価指標を提案する。
次に,モデル学習時に提案するメトリックを最大化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:07:21Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。