論文の概要: Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains
- arxiv url: http://arxiv.org/abs/2402.03509v1
- Date: Mon, 5 Feb 2024 20:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:47:30.964831
- Title: Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains
- Title(参考訳): 異なる領域にまたがるゼロショット要約の事実性評価
- Authors: Sanjana Ramprasad, Kundan Krishna, Zachary C Lipton and Byron C
Wallace
- Abstract要約: バイオメディカル・アーティクルや法定請求書を含む専門分野におけるゼロショット生成サマリーを評価した。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
収集したすべてのアノテーションを公開し、ニュース記事を超えて、事実的に正確な要約を計測および実現するためのさらなる研究を促進する。
- 参考スコア(独自算出の注目度): 60.5207173547769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that large language models (LLMs) are capable of
generating summaries zero-shot (i.e., without explicit supervision) that, under
human assessment, are often comparable or even preferred to manually composed
reference summaries. However, this prior work has focussed almost exclusively
on evaluating news article summarization. How do zero-shot summarizers perform
in other (potentially more specialized) domains? In this work we evaluate
zero-shot generated summaries across specialized domains including biomedical
articles, and legal bills (in addition to standard news benchmarks for
reference). We focus especially on the factuality of outputs. We acquire
annotations from domain experts to identify inconsistencies in summaries and
systematically categorize these errors. We analyze whether the prevalence of a
given domain in the pretraining corpus affects extractiveness and faithfulness
of generated summaries of articles in this domain. We release all collected
annotations to facilitate additional research toward measuring and realizing
factually accurate summarization, beyond news articles. The dataset can be
downloaded from https://github.com/sanjanaramprasad/zero_shot_faceval_domains
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)がゼロショット(すなわち、明示的な監督なしに)を生成できることが示されている。
しかし、この以前の研究はほとんどニュース記事の要約を評価することに集中してきた。
ゼロショット要約器は他の(潜在的により専門的な)ドメインでどのように機能するのか?
本研究では,生物医学的記事や法的請求書(参照のための標準ニュースベンチマークに加えて)を含む専門分野にまたがるゼロショット生成要約を評価する。
特にアウトプットの事実性に注目します。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
本研究では,事前学習コーパスにおける対象ドメインの有病率は,生成した記事の抽出性と忠実度に影響を及ぼすか分析する。
収集したすべてのアノテーションを公開し、ニュース記事以外の事実的正確な要約を計測および実現するためのさらなる研究を促進する。
データセットはhttps://github.com/sanjanaramprasad/zero_shot_faceval_domainsからダウンロードできる。
関連論文リスト
- Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - OpineSum: Entailment-based self-training for abstractive opinion
summarization [6.584115526134759]
本稿では,抽象的な意見要約のための新しい自己学習手法,OpineSumを提案する。
このアプローチの要約は、テキスト・エンターメントの新たな応用を用いて構築されている。
OpineSumは、両方の設定で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-21T06:20:28Z) - Unsupervised Opinion Summarisation in the Wasserstein Space [22.634245146129857]
We present WassOS, an unsupervised abstractive summarization model that makes using the Wasserstein distance。
我々は、WassOSがROUGEメトリクスの最先端をほぼ常に上回り、人間の評価による最高のサマリーを一貫して生成していることを示します。
論文 参考訳(メタデータ) (2022-11-27T19:45:38Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。