論文の概要: SWING: Balancing Coverage and Faithfulness for Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2301.10483v1
- Date: Wed, 25 Jan 2023 09:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:39:34.628438
- Title: SWING: Balancing Coverage and Faithfulness for Dialogue Summarization
- Title(参考訳): SWING:対話要約のためのカバーと信仰のバランスをとる
- Authors: Kung-Hsiang Huang, Siffi Singh, Xiaofei Ma, Wei Xiao, Feng Nan,
Nicholas Dingwall, William Yang Wang and Kathleen McKeown
- Abstract要約: 本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 67.76393867114923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Missing information is a common issue of dialogue summarization where some
information in the reference summaries is not covered in the generated
summaries. To address this issue, we propose to utilize natural language
inference (NLI) models to improve coverage while avoiding introducing factual
inconsistencies. Specifically, we use NLI to compute fine-grained training
signals to encourage the model to generate content in the reference summaries
that have not been covered, as well as to distinguish between factually
consistent and inconsistent generated sentences. Experiments on the DialogSum
and SAMSum datasets confirm the effectiveness of the proposed approach in
balancing coverage and faithfulness, validated with automatic metrics and human
evaluations. Additionally, we compute the correlation between commonly used
automatic metrics with human judgments in terms of three different dimensions
regarding coverage and factual consistency to provide insight into the most
suitable metric for evaluating dialogue summaries.
- Abstract(参考訳): 欠落情報は対話要約の一般的な問題であり、参照要約に含まれる情報の一部が生成された要約には含まれない。
この問題に対処するため,本研究では,事実矛盾を回避しつつ,自然言語推論(NLI)モデルを用いてカバレッジを改善することを提案する。
具体的には,nliを用いてきめ細かな学習信号の計算を行い,そのモデルがカバーされていない参照要約文の内容を生成するように促し,事実に一貫性のある文と一貫性のない文を区別する。
DialogSumデータセットとSAMSumデータセットの実験は、自動測定と人的評価で検証されたカバレッジと忠実性のバランスをとるための提案手法の有効性を確認した。
さらに,対話要約の評価に最も適した指標について,対象範囲と事実整合性の3つの異なる次元を用いて,一般的な自動測定値と人間の判断値との相関を計算した。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - CASPR: Automated Evaluation Metric for Contrastive Summarization [4.310460539747285]
本稿では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。
従来のデータセットであるCoCoTRIPによる結果から,CASPRは,ベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることが示された。
論文 参考訳(メタデータ) (2024-04-23T23:27:29Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - CONFIT: Toward Faithful Dialogue Summarization with
Linguistically-Informed Contrastive Fine-tuning [5.389540975316299]
生成された要約における現実的な矛盾は、抽象的な対話要約の実践的応用を著しく制限する。
本稿では,エラーのタイプを強調し,事実性に対する二項的理解から遠ざかるために,アノテーションデータを用いた事実的エラーのタイプ分析を行う。
本稿では,ConFiTと呼ばれる新しいコントラスト微調整手法により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T09:08:40Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。