論文の概要: Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods
- arxiv url: http://arxiv.org/abs/2208.13265v1
- Date: Sun, 28 Aug 2022 18:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:39:59.809533
- Title: Podcast Summary Assessment: A Resource for Evaluating Summary Assessment
Methods
- Title(参考訳): ポッドキャスト要約評価:要約評価手法の評価のためのリソース
- Authors: Potsawee Manakul, Mark J. F. Gales
- Abstract要約: 本稿では,新たなデータセット,ポッドキャスト要約評価コーパスについて述べる。
このデータセットには、2つのユニークな側面がある: (i)ロングインプット、音声ポッドキャストベース、文書; (ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
- 参考スコア(独自算出の注目度): 42.08097583183816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic summary assessment is useful for both machine-generated and
human-produced summaries. Automatically evaluating the summary text given the
document enables, for example, summary generation system development and
detection of inappropriate summaries. Summary assessment can be run in a number
of modes: ranking summary generation systems; ranking summaries of a particular
document; and estimating the quality of a document-summary pair on an absolute
scale. Existing datasets with annotation for summary assessment are usually
based on news summarization datasets such as CNN/DailyMail or XSum. In this
work, we describe a new dataset, the podcast summary assessment corpus, a
collection of podcast summaries that were evaluated by human experts at
TREC2020. Compared to existing summary assessment data, this dataset has two
unique aspects: (i) long-input, speech podcast based, documents; and (ii) an
opportunity to detect inappropriate reference summaries in podcast corpus.
First, we examine existing assessment methods, including model-free and
model-based methods, and provide benchmark results for this long-input summary
assessment dataset. Second, with the aim of filtering reference
summary-document pairings for training, we apply summary assessment for data
selection. The experimental results on these two aspects provide interesting
insights on the summary assessment and generation tasks. The podcast summary
assessment data is available.
- Abstract(参考訳): 自動要約評価は、機械生成と人為的な要約の両方に有用である。
文書に与えられた要約テキストを自動的に評価することで、例えば要約生成システムの開発と不適切な要約の検出が可能になる。
要約評価は、要約生成システムをランキングする、特定の文書の要約をランク付けする、絶対的なスケールで文書と要約のペアの品質を推定するなど、いくつかのモードで実施することができる。
既存の要約評価用アノテーション付きデータセットは通常、CNN/DailyMailやXSumのようなニュース要約データセットに基づいている。
本稿では,trec2020で人間の専門家によって評価されたポッドキャスト要約集であるポッドキャスト要約アセスメントコーパス(podcast summary assessment corpus)について述べる。
既存の要約評価データと比較すると、このデータセットには2つのユニークな側面がある。
(i)ロングインプット、音声ポッドキャスト、文書、及び
(ii)ポッドキャストコーパスにおける不適切な参照要約を検出する機会。
まず、モデルフリーおよびモデルベース手法を含む既存の評価手法を調査し、この長期入力要約評価データセットのベンチマーク結果を提供する。
次に,トレーニングのための参照要約文書ペアリングをフィルタリングすることを目的として,データ選択のための要約評価を行う。
これら2つの側面に関する実験結果は、要約評価と生成タスクに関する興味深い洞察を提供する。
ポッドキャスト要約評価データは利用可能である。
関連論文リスト
- Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - RISE: Leveraging Retrieval Techniques for Summarization Evaluation [3.9215337270154995]
本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
論文 参考訳(メタデータ) (2022-12-17T01:09:22Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。