論文の概要: Reference Matters: Benchmarking Factual Error Correction for Dialogue
Summarization with Fine-grained Evaluation Framework
- arxiv url: http://arxiv.org/abs/2306.05119v1
- Date: Thu, 8 Jun 2023 11:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:47:22.150615
- Title: Reference Matters: Benchmarking Factual Error Correction for Dialogue
Summarization with Fine-grained Evaluation Framework
- Title(参考訳): 参考事項:細粒度評価フレームワークを用いた対話要約における事実誤り訂正のベンチマーク
- Authors: Mingqi Gao, Xiaojun Wan, Jia Su, Zhefeng Wang, Baoxing Huai
- Abstract要約: 4000項目を含む対話要約のためのFECデータセットを手作業でアノテートするのは初めてである。
異なるエラーカテゴリにおけるFECモデルの性能を自動的に評価する、きめ細かい評価フレームワークであるFERRANTIを提案する。
- 参考スコア(独自算出の注目度): 45.80315799254377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factuality is important to dialogue summarization. Factual error correction
(FEC) of model-generated summaries is one way to improve factuality. Current
FEC evaluation that relies on factuality metrics is not reliable and detailed
enough. To address this problem, we are the first to manually annotate a FEC
dataset for dialogue summarization containing 4000 items and propose FERRANTI,
a fine-grained evaluation framework based on reference correction that
automatically evaluates the performance of FEC models on different error
categories. Using this evaluation framework, we conduct sufficient experiments
with FEC approaches under a variety of settings and find the best training
modes and significant differences in the performance of the existing approaches
on different factual error categories.
- Abstract(参考訳): 対話の要約には現実性が重要である。
モデル生成要約のFECは事実性を改善する一つの方法である。
事実性メトリクスに依存する現在のFEC評価は、十分に信頼性と詳細なものではない。
この問題を解決するために、4000項目を含む対話要約のためのFECデータセットを手動で注釈付けし、異なるエラーカテゴリにおけるFECモデルの性能を自動的に評価する参照補正に基づくきめ細かい評価フレームワークであるFERRANTIを提案する。
この評価フレームワークを用いて, FEC のアプローチを様々な設定で十分な実験を行い, 異なる実ミスカテゴリにおける既存手法の性能の相違点と, 最適なトレーニングモードと有意な相違点を見出した。
関連論文リスト
- Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization [13.736656652049884]
マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。
マルチモーダル要約モデルの現実性を評価するために,2つのきめ細かな説明可能な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T01:03:25Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。