論文の概要: Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization
- arxiv url: http://arxiv.org/abs/2305.16548v1
- Date: Fri, 26 May 2023 00:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:37:38.165348
- Title: Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization
- Title(参考訳): 対話要約のためのファクチュアルエラーの注釈と検出
- Authors: Rongxin Zhu, Jianzhong Qi, Jey Han Lau
- Abstract要約: 本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
- 参考スコア(独自算出の注目度): 34.85353544844499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A series of datasets and models have been proposed for summaries generated
for well-formatted documents such as news articles. Dialogue summaries,
however, have been under explored. In this paper, we present the first dataset
with fine-grained factual error annotations named DIASUMFACT. We define
fine-grained factual error detection as a sentence-level multi-label
classification problem, and we evaluate two state-of-the-art (SOTA) models on
our dataset. Both models yield sub-optimal results, with a macro-averaged F1
score of around 0.25 over 6 error classes. We further propose an unsupervised
model ENDERANKER via candidate ranking using pretrained encoder-decoder models.
Our model performs on par with the SOTA models while requiring fewer resources.
These observations confirm the challenges in detecting factual errors from
dialogue summaries, which call for further studies, for which our dataset and
results offer a solid foundation.
- Abstract(参考訳): ニュース記事のような整形された文書のために生成された要約のために、一連のデータセットとモデルが提案されている。
しかし、対話の要約は検討されている。
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルの多ラベル分類問題としてファクト・ファクト・エラー検出を定義し、データセット上で2つの最先端(SOTA)モデルを評価する。
どちらのモデルも準最適であり、マクロ平均F1スコアは6つのエラークラスで約0.25である。
さらに、事前訓練エンコーダデコーダモデルを用いて、候補ランキングによる教師なしモデルENDERANKERを提案する。
我々のモデルは、少ないリソースでSOTAモデルと同等に動作します。
これらの結果から,対話要約から事実誤りを検出する上での課題が確認された。
関連論文リスト
- AMRFact: Enhancing Summarization Factuality Evaluation with AMR-driven
Training Data Generation [63.18211192998151]
本稿では,現実的に一貫性のない要約を生成する新しいフレームワークであるAMRFactを提案する。
提案手法は, 現実的に正しい要約をAMRグラフに解析し, 否定的な例を生成するために制御された事実矛盾を注入する。
提案手法は,AggreFact-SOTAデータセットにおいて,従来のシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - MeetSum: Transforming Meeting Transcript Summarization using
Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。
このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。
本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-08-13T16:34:09Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。