論文の概要: Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries
- arxiv url: http://arxiv.org/abs/2004.04228v1
- Date: Wed, 8 Apr 2020 20:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:54:00.767426
- Title: Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries
- Title(参考訳): 要約の事実的一貫性を評価するための質問と回答
- Authors: Alex Wang, Kyunghyun Cho, and Mike Lewis
- Abstract要約: 本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
- 参考スコア(独自算出の注目度): 80.65186293015135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical applications of abstractive summarization models are limited by
frequent factual inconsistencies with respect to their input. Existing
automatic evaluation metrics for summarization are largely insensitive to such
errors. We propose an automatic evaluation protocol called QAGS (pronounced
"kags") that is designed to identify factual inconsistencies in a generated
summary. QAGS is based on the intuition that if we ask questions about a
summary and its source, we will receive similar answers if the summary is
factually consistent with the source. To evaluate QAGS, we collect human
judgments of factual consistency on model-generated summaries for the
CNN/DailyMail (Hermann et al., 2015) and XSUM (Narayan et al., 2018)
summarization datasets. QAGS has substantially higher correlations with these
judgments than other automatic evaluation metrics. Also, QAGS offers a natural
form of interpretability: The answers and questions generated while computing
QAGS indicate which tokens of a summary are inconsistent and why. We believe
QAGS is a promising tool in automatically generating usable and factually
consistent text.
- Abstract(参考訳): 抽象的な要約モデルの実践的応用は、その入力に関する頻繁な事実的矛盾によって制限される。
要約のための既存の自動評価メトリクスは、そのエラーにほとんど影響を受けない。
生成した要約における事実の不整合を識別するQAGS(kags)と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSを評価するために,CNN/DailyMail(Hermann et al., 2015)とXSUM(Narayan et al., 2018)の要約データセットに対して,モデル生成要約の事実整合性の人間の判断を収集した。
QAGSはこれらの判断と他の自動評価指標よりもかなり高い相関関係を持つ。
また、QAGSは自然な解釈可能性を提供する: QAGSが計算中に生成した回答と質問は、要約のどのトークンが矛盾しており、なぜなのかを示す。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
関連論文リスト
- QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization [86.94444211134486]
本稿ではQAPyramidを提案する。QA-SRLフレームワークにより,各参照要約をよりきめ細かな問合せ対に分解する。
この結果から,QAPyramidはより体系的かつきめ細かなコンテンツ選択評価を提供すると同時に,専門家のアノテーションを必要とせず,アノテータ間の高合意を維持していることがわかった。
論文 参考訳(メタデータ) (2024-12-10T01:29:51Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文 参考訳(メタデータ) (2022-04-12T21:58:44Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Generating Self-Contained and Summary-Centric Question Answer Pairs via
Differentiable Reward Imitation Learning [7.2745835227138045]
本稿では,質問応答対(QAペア)を自己完結型,要約型,長さ制約型,記事要約型で生成するモデルを提案する。
このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。
論文 参考訳(メタデータ) (2021-09-10T06:34:55Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。