論文の概要: RISE: Leveraging Retrieval Techniques for Summarization Evaluation
- arxiv url: http://arxiv.org/abs/2212.08775v1
- Date: Sat, 17 Dec 2022 01:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:02:09.996689
- Title: RISE: Leveraging Retrieval Techniques for Summarization Evaluation
- Title(参考訳): RISE: 要約評価のための検索手法の活用
- Authors: David Uthus and Jianmo Ni
- Abstract要約: 本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
- 参考スコア(独自算出の注目度): 3.9215337270154995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating automatically-generated text summaries is a challenging task.
While there have been many interesting approaches, they still fall short of
human evaluations. We present RISE, a new approach for evaluating summaries by
leveraging techniques from information retrieval. RISE is first trained as a
retrieval task using a dual-encoder retrieval setup, and can then be
subsequently utilized for evaluating a generated summary given an input
document, without gold reference summaries. RISE is especially well suited when
working on new datasets where one may not have reference summaries available
for evaluation. We conduct comprehensive experiments on the SummEval benchmark
(Fabbri et al., 2021) and the results show that RISE has higher correlation
with human evaluations compared to many past approaches to summarization
evaluation. Furthermore, RISE also demonstrates data-efficiency and
generalizability across languages.
- Abstract(参考訳): 自動生成テキスト要約の評価は難しい課題である。
多くの興味深いアプローチがあったが、それでも人間の評価に欠けている。
本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
RISEは特に、評価に利用可能な参照サマリを持たない可能性のある新しいデータセットの開発に適している。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
さらにRISEは、言語間のデータ効率と一般化性も示す。
関連論文リスト
- Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods [42.08097583183816]
本稿では,新たなデータセット,ポッドキャスト要約評価コーパスについて述べる。
このデータセットには、2つのユニークな側面がある: (i)ロングインプット、音声ポッドキャストベース、文書; (ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
論文 参考訳(メタデータ) (2022-08-28T18:24:41Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。