論文の概要: Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries
- arxiv url: http://arxiv.org/abs/2109.09195v2
- Date: Tue, 21 Sep 2021 03:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 12:30:13.086006
- Title: Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries
- Title(参考訳): 要約の事実整合性評価のためのクラウドソーシングプロトコルの検討
- Authors: Xiangru Tang, Alexander R. Fabbri, Ziming Mao, Griffin Adams, Borui
Wang, Haoran Li, Yashar Mehdad, Dragomir Radev
- Abstract要約: 要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
- 参考スコア(独自算出の注目度): 59.27273928454995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current pre-trained models applied to summarization are prone to factual
inconsistencies which either misrepresent the source text or introduce
extraneous information. Thus, comparing the factual consistency of summaries is
necessary as we develop improved models. However, the optimal human evaluation
setup for factual consistency has not been standardized. To address this issue,
we crowdsourced evaluations for factual consistency using the rating-based
Likert scale and ranking-based Best-Worst Scaling protocols, on 100 articles
from each of the CNN-Daily Mail and XSum datasets over four state-of-the-art
models, to determine the most reliable evaluation framework. We find that
ranking-based protocols offer a more reliable measure of summary quality across
datasets, while the reliability of Likert ratings depends on the target dataset
and the evaluation design. Our crowdsourcing templates and summary evaluations
will be publicly available to facilitate future research on factual consistency
in summarization.
- Abstract(参考訳): 要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾を生じやすい。
したがって、改良されたモデルを開発するためには、要約の事実整合性を比較する必要がある。
しかし,現実整合性のための最適な人的評価設定は標準化されていない。
この問題に対処するため,CNN-Daily Mail と XSum の各データセットから,評価ベースの Likert スケールとランキングベースの Best-Worst Scaling プロトコルを用いて,4つの最先端モデル上で100の項目をクラウドソーシングし,最も信頼性の高い評価フレームワークを決定する。
ランキングベースのプロトコルはデータセット間の要約品質をより信頼性の高い尺度を提供するのに対し、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
我々のクラウドソーシングテンプレートと要約評価は、要約における事実整合性の研究を促進するために公開される。
関連論文リスト
- MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures [28.130008435669865]
我々はMixEval-Xを紹介した。これは、様々な入力と出力のモダリティで評価を最適化するように設計された、世界初の実世界ベンチマークである。
実世界のタスク分布を再構築するために,マルチモーダルベンチマークと適応修正パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T16:52:28Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Questioning the Validity of Summarization Datasets and Improving Their
Factual Consistency [14.974996886744083]
SummFCは,事実整合性を改善したフィルタされた要約データセットである。
我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。
論文 参考訳(メタデータ) (2022-10-31T15:04:20Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。