論文の概要: Human-like Summarization Evaluation with ChatGPT
- arxiv url: http://arxiv.org/abs/2304.02554v1
- Date: Wed, 5 Apr 2023 16:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:05:38.572882
- Title: Human-like Summarization Evaluation with ChatGPT
- Title(参考訳): chatgptを用いた人間様要約評価
- Authors: Mingqi Gao, Jie Ruan, Renliang Sun, Xunjian Yin, Shiping Yang, Xiaojun
Wan
- Abstract要約: ChatGPTは、Likertスケールスコアリング、ペアワイズ比較、ピラミッド、バイナリ事実性評価を用いて比較的スムーズにアノテーションを補完することができた。
これは、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
- 参考スコア(独自算出の注目度): 38.39767193442397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating text summarization is a challenging problem, and existing
evaluation metrics are far from satisfactory. In this study, we explored
ChatGPT's ability to perform human-like summarization evaluation using four
human evaluation methods on five datasets. We found that ChatGPT was able to
complete annotations relatively smoothly using Likert scale scoring, pairwise
comparison, Pyramid, and binary factuality evaluation. Additionally, it
outperformed commonly used automatic evaluation metrics on some datasets.
Furthermore, we discussed the impact of different prompts, compared its
performance with that of human evaluation, and analyzed the generated
explanations and invalid responses.
- Abstract(参考訳): テキスト要約の評価は難しい問題であり、既存の評価基準は満足のいくものではない。
本研究では,5つのデータセット上の4つの人的評価手法を用いて,ChatGPTが人間的な要約評価を行う能力について検討した。
その結果、chatgptはlikertスケールスコア、ペアワイズ比較、ピラミッド、バイナリの事実性評価を用いて、比較的スムーズにアノテーションを補完することができた。
さらに、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
さらに, 異なるプロンプトの影響について検討し, 評価結果と比較し, 生成した説明と無効な反応を分析した。
関連論文リスト
- OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - SummScore: A Comprehensive Evaluation Metric for Summary Quality Based
on Cross-Encoder [12.913447457411317]
SummScoreはCrossEncoderに基づいた要約品質評価のための総合的なメトリクスである。
包括性と解釈性を改善するため、SummScoreは4つのきめ細かいサブモデルで構成されている。
SummScoreは上記の4次元の既存の評価指標と人間のスコアとの相関を著しく上回っている。
論文 参考訳(メタデータ) (2022-07-11T06:47:29Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。