論文の概要: OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization
- arxiv url: http://arxiv.org/abs/2310.18122v1
- Date: Fri, 27 Oct 2023 13:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:44:18.518690
- Title: OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization
- Title(参考訳): OpinSummEval: 意見要約のための自動評価の再検討
- Authors: Yuchen Shen, Xiaojun Wan
- Abstract要約: 人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
- 参考スコア(独自算出の注目度): 52.720711541731205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Opinion summarization sets itself apart from other types of summarization
tasks due to its distinctive focus on aspects and sentiments. Although certain
automated evaluation methods like ROUGE have gained popularity, we have found
them to be unreliable measures for assessing the quality of opinion summaries.
In this paper, we present OpinSummEval, a dataset comprising human judgments
and outputs from 14 opinion summarization models. We further explore the
correlation between 24 automatic metrics and human ratings across four
dimensions. Our findings indicate that metrics based on neural networks
generally outperform non-neural ones. However, even metrics built on powerful
backbones, such as BART and GPT-3/3.5, do not consistently correlate well
across all dimensions, highlighting the need for advancements in automated
evaluation methods for opinion summarization. The code and data are publicly
available at https://github.com/A-Chicharito-S/OpinSummEval/tree/main.
- Abstract(参考訳): 意見要約は、側面や感情に特有な焦点をあてることから、他の種類の要約タスクとは分離する。
ROUGEのような一部の自動評価手法が人気を博しているが、意見要約の質を評価するには信頼性が低い。
本稿では,人間の判断と14の意見要約モデルからの出力からなるデータセットであるopinsummevalを提案する。
さらに、4次元にわたる24の自動測定値と人間の評価値の相関について検討する。
以上の結果から,ニューラルネットに基づく指標は一般に非ニューラル指標よりも優れていることが示唆された。
しかしながら、BART や GPT-3/3.5 のような強力なバックボーン上に構築されたメトリクスでさえ、すべての次元にわたって一貫して相関するわけではなく、意見要約のための自動評価手法の進歩の必要性を強調している。
コードとデータはhttps://github.com/A-Chicharito-S/OpinSummEval/tree/mainで公開されている。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - FFCI: A Framework for Interpretable Automatic Evaluation of
Summarization [43.375797352517765]
本稿では,精細な要約評価のためのフレームワークであるFFCIを提案する。
我々は、焦点、カバレッジ、相互一貫性のための新しいデータセットを構築した。
開発したメトリクスを2つのデータセットにわたる広範囲の要約モデルの評価に適用する。
論文 参考訳(メタデータ) (2020-11-27T10:57:18Z) - Metrics also Disagree in the Low Scoring Range: Revisiting Summarization
Evaluation Metrics [20.105119107290488]
ある模範的な研究は、ハイスコアの要約をランク付けする際、自動メトリクスは強く反対する、と結論付けている。
彼らの観察は、測定値が任意の狭いスコア範囲のサマリーのランク付けに一致しないという事実に起因していることが判明した。
要約のスコアリング範囲の幅は別として、測度間合意に影響を及ぼす他の3つの特性を解析する。
論文 参考訳(メタデータ) (2020-11-08T22:26:06Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。