Fugu-MT 論文翻訳(概要): Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization

論文の概要: Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization

arxiv url: http://arxiv.org/abs/2305.16548v1
Date: Fri, 26 May 2023 00:18:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 17:37:38.165348
Title: Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization
Title（参考訳）: 対話要約のためのファクチュアルエラーの注釈と検出
Authors: Rongxin Zhu, Jianzhong Qi, Jey Han Lau
Abstract要約: 本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
参考スコア（独自算出の注目度）: 34.85353544844499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A series of datasets and models have been proposed for summaries generated for well-formatted documents such as news articles. Dialogue summaries, however, have been under explored. In this paper, we present the first dataset with fine-grained factual error annotations named DIASUMFACT. We define fine-grained factual error detection as a sentence-level multi-label classification problem, and we evaluate two state-of-the-art (SOTA) models on our dataset. Both models yield sub-optimal results, with a macro-averaged F1 score of around 0.25 over 6 error classes. We further propose an unsupervised model ENDERANKER via candidate ranking using pretrained encoder-decoder models. Our model performs on par with the SOTA models while requiring fewer resources. These observations confirm the challenges in detecting factual errors from dialogue summaries, which call for further studies, for which our dataset and results offer a solid foundation.
Abstract（参考訳）: ニュース記事のような整形された文書のために生成された要約のために、一連のデータセットとモデルが提案されている。しかし、対話の要約は検討されている。本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。文レベルの多ラベル分類問題としてファクト・ファクト・エラー検出を定義し、データセット上で2つの最先端(SOTA)モデルを評価する。どちらのモデルも準最適であり、マクロ平均F1スコアは6つのエラークラスで約0.25である。さらに、事前訓練エンコーダデコーダモデルを用いて、候補ランキングによる教師なしモデルENDERANKERを提案する。我々のモデルは、少ないリソースでSOTAモデルと同等に動作します。これらの結果から,対話要約から事実誤りを検出する上での課題が確認された。

関連論文リスト

Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文参考訳（メタデータ） (2024-06-18T18:59:37Z)
Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling [29.84946857859386]
本稿では,財務文書に発生する関連する数字を対応するタグで自動的に注釈付けする問題について検討する。本稿では,LoRAを用いたタスクに対するパラメータ効率のよい解を提案する。提案するモデルであるFLAN-FinXCは、両方のデータセット上で新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-05-03T16:41:36Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Correcting Diverse Factual Errors in Abstractive Summarization via Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文参考訳（メタデータ） (2022-10-22T07:16:19Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
MeetSum: Transforming Meeting Transcript Summarization using Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-08-13T16:34:09Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。