論文の概要: ChatGPT as a Factual Inconsistency Evaluator for Abstractive Text
Summarization
- arxiv url: http://arxiv.org/abs/2303.15621v1
- Date: Mon, 27 Mar 2023 22:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:08:54.751365
- Title: ChatGPT as a Factual Inconsistency Evaluator for Abstractive Text
Summarization
- Title(参考訳): 抽象テキスト要約のためのファクチュアル不整合評価器としてのChatGPT
- Authors: Zheheng Luo, Qianqian Xie, Sophia Ananiadou
- Abstract要約: ゼロショット設定下でのChatGPTの非整合性評価能力について検討した。
その結果、ChatGPTは3つのタスクにわたる6/9データセットのSOTA評価指標よりも優れていた。
結果は、迅速な設計の重要性と、評価バイアス、誤った推論、幻覚に対するChatGPTの限界に対処する必要があることも強調している。
- 参考スコア(独自算出の注目度): 17.166794984161964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of abstractive text summarization has been greatly boosted by
pre-trained language models recently. The main concern of existing abstractive
summarization methods is the factual inconsistency problem of their generated
summary. To alleviate the problem, many efforts have focused on developing
effective factuality evaluation metrics based on natural language inference and
question answering et al. However, they have limitations of high computational
complexity and relying on annotated data. Most recently, large language models
such as ChatGPT have shown strong ability in not only natural language
understanding but also natural language inference. In this paper, we study the
factual inconsistency evaluation ability of ChatGPT under the zero-shot setting
by evaluating it on the coarse-grained and fine-grained factuality evaluation
tasks including binary natural language inference (NLI), summary ranking, and
consistency rating. Experimental results show that ChatGPT outperforms previous
SOTA evaluation metrics on 6/9 datasets across three tasks, demonstrating its
great potential for assessing factual inconsistency in the zero-shot setting.
The results also highlight the importance of prompt design and the need for
future efforts to address ChatGPT's limitations on evaluation bias, wrong
reasoning, and hallucination.
- Abstract(参考訳): 抽象テキスト要約の性能は、最近、事前訓練された言語モデルによって大幅に向上した。
既存の抽象要約法の主な関心事は、生成された要約の事実的不整合問題である。
この問題を軽減するため,自然言語推論や質問応答等に基づく効果的な事実性評価指標の開発に多くの取り組みが注がれている。
しかし、計算の複雑さは高く、注釈付きデータに依存するという制限がある。
最近では、chatgptのような大規模言語モデルは、自然言語理解だけでなく、自然言語推論にも強い能力を示している。
本稿では,2次自然言語推論(nli),要約ランキング,一貫性評価を含む粗粒度および細粒度事実度評価タスクを用いて,ゼロショット設定下でのchatgptの非一貫性評価能力について検討する。
実験の結果、ChatGPTは3つのタスクにわたる6/9データセットのSOTA評価指標よりも優れており、ゼロショット設定における事実整合性を評価する大きな可能性を示している。
また, 評価バイアス, 誤った推論, 幻覚に対するChatGPTの限界に対処するために, 迅速な設計の重要性と今後の取り組みの必要性も強調した。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - GUMSum: Multi-Genre Data and Evaluation for English Abstractive
Summarization [10.609715843964263]
事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。
GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
論文 参考訳(メタデータ) (2023-06-20T03:21:10Z) - Extractive Summarization via ChatGPT for Faithful Summary Generation [12.966825834765814]
本稿では,抽出要約におけるChatGPTの性能について,徹底的に評価する。
また,ChatGPTは既存の教師付きシステムと比較して,ROUGEスコアにおいて劣る抽出総和性能を示した。
ChatGPTを用いた抽出列生成パイプラインの適用は、要約忠実度の観点から抽象的ベースラインよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2023-04-09T08:26:04Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。