論文の概要: ChatGPT as a Factual Inconsistency Evaluator for Text Summarization
- arxiv url: http://arxiv.org/abs/2303.15621v2
- Date: Thu, 13 Apr 2023 10:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 17:07:38.079670
- Title: ChatGPT as a Factual Inconsistency Evaluator for Text Summarization
- Title(参考訳): テキスト要約のためのFactual Inconsistency EvaluatorとしてのChatGPT
- Authors: Zheheng Luo, Qianqian Xie, Sophia Ananiadou
- Abstract要約: ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
- 参考スコア(独自算出の注目度): 17.166794984161964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of text summarization has been greatly boosted by pre-trained
language models. A main concern of existing methods is that most generated
summaries are not factually inconsistent with their source documents. To
alleviate the problem, many efforts have focused on developing effective
factuality evaluation metrics based on natural language inference, question
answering, and syntactic dependency et al. However, these approaches are
limited by either their high computational complexity or the uncertainty
introduced by multi-component pipelines, resulting in only partial agreement
with human judgement. Most recently, large language models(LLMs) have shown
excellent performance in not only text generation but also language
comprehension. In this paper, we particularly explore ChatGPT's ability to
evaluate factual inconsistency under a zero-shot setting by examining it on
both coarse-grained and fine-grained evaluation tasks including binary
entailment inference, summary ranking, and consistency rating. Experimental
results indicate that ChatGPT generally outperforms previous evaluation metrics
across the three tasks, indicating its great potential for factual
inconsistency evaluation. However, a closer inspection of ChatGPT's output
reveals certain limitations including its preference for more lexically similar
candidates, false reasoning, and inadequate understanding of instructions.
- Abstract(参考訳): テキスト要約の性能は、事前訓練された言語モデルによって大幅に向上した。
既存の方法の主な関心事は、ほとんどの生成したサマリーが実際にソースドキュメントと一貫性がないことである。
この問題を軽減するため,自然言語推論,質問応答,構文依存などに基づく効果的な事実性評価指標の開発に多くの取り組みが注がれている。
しかしながら、これらのアプローチは高い計算複雑性または多成分パイプラインによって導入された不確実性によって制限されており、結果として人間の判断と部分的に一致しているだけである。
近年,大規模言語モデル (LLM) はテキスト生成だけでなく言語理解にも優れた性能を示している。
本稿では,ChatGPTがゼロショット設定下で現実的不整合性を評価する能力について,二項関係推論,要約ランキング,整合性評価などの粗粒度およびきめ細かな評価タスクで検証することによって検討する。
実験結果から,ChatGPTは従来の3つのタスクにおける評価指標よりも優れており,現実的不整合評価の可能性が示唆された。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - GUMSum: Multi-Genre Data and Evaluation for English Abstractive
Summarization [10.609715843964263]
事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。
GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
論文 参考訳(メタデータ) (2023-06-20T03:21:10Z) - Extractive Summarization via ChatGPT for Faithful Summary Generation [12.966825834765814]
本稿では,抽出要約におけるChatGPTの性能について,徹底的に評価する。
また,ChatGPTは既存の教師付きシステムと比較して,ROUGEスコアにおいて劣る抽出総和性能を示した。
ChatGPTを用いた抽出列生成パイプラインの適用は、要約忠実度の観点から抽象的ベースラインよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2023-04-09T08:26:04Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。