論文の概要: GeSERA: General-domain Summary Evaluation by Relevance Analysis
- arxiv url: http://arxiv.org/abs/2110.03567v1
- Date: Thu, 7 Oct 2021 15:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:37:33.036204
- Title: GeSERA: General-domain Summary Evaluation by Relevance Analysis
- Title(参考訳): GeSERA: 関連分析による一般ドメイン概要評価
- Authors: Jessica L\'opez Espejel, Ga\"el de Chalendar, Jorge Garcia Flores,
Thierry Charnois, Ivan Vladimir Meza Ruiz
- Abstract要約: 本稿では,SERAの改良版であるGeSERAについて述べる。
SerAはもともとバイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動法との相関性が良好であった。
- 参考スコア(独自算出の注目度): 0.04199844472131921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GeSERA, an open-source improved version of SERA for evaluating
automatic extractive and abstractive summaries from the general domain. SERA is
based on a search engine that compares candidate and reference summaries
(called queries) against an information retrieval document base (called index).
SERA was originally designed for the biomedical domain only, where it showed a
better correlation with manual methods than the widely used lexical-based ROUGE
method. In this paper, we take out SERA from the biomedical domain to the
general one by adapting its content-based method to successfully evaluate
summaries from the general domain. First, we improve the query reformulation
strategy with POS Tags analysis of general-domain corpora. Second, we replace
the biomedical index used in SERA with two article collections from AQUAINT-2
and Wikipedia. We conduct experiments with TAC2008, TAC2009, and CNNDM
datasets. Results show that, in most cases, GeSERA achieves higher correlations
with manual evaluation methods than SERA, while it reduces its gap with ROUGE
for general-domain summary evaluation. GeSERA even surpasses ROUGE in two cases
of TAC2009. Finally, we conduct extensive experiments and provide a
comprehensive study of the impact of human annotators and the index size on
summary evaluation with SERA and GeSERA.
- Abstract(参考訳): 一般ドメインからの自動抽出・抽象要約を評価するための,オープンソースの改良版であるgeseraを提案する。
seraは、候補と参照要約(クエリと呼ばれる)と情報検索文書ベース(インデックスと呼ばれる)を比較する検索エンジンに基づいている。
SERAはもともと、バイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動の手法との相関性が良好であった。
本稿では,SERAをバイオメディカル領域から一般領域へ抽出し,その内容に基づく手法を適用し,一般領域からの要約をうまく評価する。
まず、一般ドメインコーパスのPOSタグ解析により、クエリ修正戦略を改善する。
次に,SERAで使用されるバイオメディカルインデックスを,AQUAINT-2とWikipediaの2つの記事コレクションに置き換える。
我々は,TAC2008,TAC2009,CNNDMデータセットを用いて実験を行った。
以上の結果から,gesera は sera よりも手作業による評価手法との相関が高かったが,一般ドメインの要約評価では rouge とのギャップが小さくなった。
GeSERAは、TAC2009の2例でROUGEを上回っている。
最後に、広範囲にわたる実験を行い、SERAとGeSERAによる要約評価におけるヒトアノテータの影響とインデックスサイズに関する総合的研究を行った。
関連論文リスト
- DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text Summarization [1.7009235747761653]
DomainSumは抽象的な要約において、きめ細かいドメインシフトをキャプチャするために設計された階層的なベンチマークである。
これらの変化をジャンル,スタイル,トピックという3つのレベルに分類し,階層構造に従うような総合的なベンチマーク分析を通じて示す。
論文 参考訳(メタデータ) (2024-10-21T06:55:35Z) - READoc: A Unified Benchmark for Realistic Document Structured Extraction [44.44722729958791]
本稿では,DSEを現実的なタスクとして定義するREADocという新しいベンチマークを紹介する。
READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。
さらに,最先端DSE手法の統一評価法を開発した。
論文 参考訳(メタデータ) (2024-09-08T15:42:48Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - RISE: Leveraging Retrieval Techniques for Summarization Evaluation [3.9215337270154995]
本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
論文 参考訳(メタデータ) (2022-12-17T01:09:22Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z) - Generating SOAP Notes from Doctor-Patient Conversations Using Modular
Summarization Techniques [43.13248746968624]
私たちは、深い要約モデルを利用してSOAPノートを生成するための最初の完全なパイプラインを紹介します。
本稿では,各要約部に関連する重要な発話を抽出するアルゴリズムであるCluster2Sentを提案する。
本研究は,要約コーパスを構築する際に,要約をセクションに構造化し,証拠を注釈する利点について述べる。
論文 参考訳(メタデータ) (2020-05-04T19:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。