論文の概要: How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation
- arxiv url: http://arxiv.org/abs/2209.06517v2
- Date: Thu, 15 Sep 2022 12:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:47:40.398751
- Title: How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation
- Title(参考訳): 強固な要約コヒーレンス対策を見つけるには?
要約コヒーレンス尺度評価のためのツールボックスと比較研究
- Authors: Julius Steen and Katja Markert
- Abstract要約: 球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
- 参考スコア(独自算出の注目度): 3.434197496862117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically evaluating the coherence of summaries is of great significance
both to enable cost-efficient summarizer evaluation and as a tool for improving
coherence by selecting high-scoring candidate summaries. While many different
approaches have been suggested to model summary coherence, they are often
evaluated using disparate datasets and metrics. This makes it difficult to
understand their relative performance and identify ways forward towards better
summary coherence modelling. In this work, we conduct a large-scale
investigation of various methods for summary coherence modelling on an even
playing field. Additionally, we introduce two novel analysis measures,
intra-system correlation and bias matrices, that help identify biases in
coherence measures and provide robustness against system-level confounders.
While none of the currently available automatic coherence measures are able to
assign reliable coherence scores to system summaries across all evaluation
metrics, large-scale language models fine-tuned on self-supervised tasks show
promising results, as long as fine-tuning takes into account that they need to
generalize across different summary lengths.
- Abstract(参考訳): 要約のコヒーレンスを自動的に評価することは、コスト効率のよい要約者評価を可能にすることと、ハイスコア候補要約を選択してコヒーレンスを改善するツールとして重要である。
要約コヒーレンスをモデル化するために多くの異なるアプローチが提案されているが、異なるデータセットとメトリクスを使って評価されることが多い。
これにより、相対的なパフォーマンスを理解し、より優れた要約コヒーレンスモデリングへの道を見出すのが難しくなります。
本研究では,球面上でのコヒーレンスをモデル化する様々な手法を大規模に検討する。
さらに,システム内相関とバイアス行列という2つの新しい分析手法を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能なすべての自動コヒーレンス尺度は、システムサマリーに信頼できるコヒーレンススコアを割り当てることができないが、自己教師付きタスクで微調整された大規模言語モデルは、異なるサマリー長にわたって一般化する必要があることを考慮し、有望な結果を示す。
関連論文リスト
- CREAM: Comparison-Based Reference-Free ELO-Ranked Automatic Evaluation for Meeting Summarization [37.44018461165065]
CREAM (Comparison-Based Reference-Free Elo-Ranked Automatic Evaluation for Meeting Summarization) は、ミーティングサマリーを評価する際の課題に対処する新しいフレームワークである。
ELOランキングシステムを利用することで、異なるモデルの品質や迅速な構成を比較するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-09-17T04:39:20Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Improving Factual Consistency of Abstractive Summarization via Question
Answering [25.725873545789046]
要約における事実整合性に対処するアプローチを提案する。
まず,実体整合性を測定するための効率的な自動評価指標を提案する。
次に,モデル学習時に提案するメトリックを最大化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:07:21Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。