Fugu-MT 論文翻訳(概要): GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization

論文の概要: GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization

arxiv url: http://arxiv.org/abs/2306.11256v1
Date: Tue, 20 Jun 2023 03:21:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 15:52:21.132245
Title: GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization
Title（参考訳）: GUMSum: 英語抽象要約のための多元データと評価
Authors: Yang Janet Liu and Amir Zeldes
Abstract要約: 事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。 GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
参考スコア（独自算出の注目度）: 10.609715843964263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic summarization with pre-trained language models has led to impressively fluent results, but is prone to 'hallucinations', low performance on non-news genres, and outputs which are not exactly summaries. Targeting ACL 2023's 'Reality Check' theme, we present GUMSum, a small but carefully crafted dataset of English summaries in 12 written and spoken genres for evaluation of abstractive summarization. Summaries are highly constrained, focusing on substitutive potential, factuality, and faithfulness. We present guidelines and evaluate human agreement as well as subjective judgments on recent system outputs, comparing general-domain untuned approaches, a fine-tuned one, and a prompt-based approach, to human performance. Results show that while GPT3 achieves impressive scores, it still underperforms humans, with varying quality across genres. Human judgments reveal different types of errors in supervised, prompted, and human-generated summaries, shedding light on the challenges of producing a good summary.
Abstract（参考訳）: 事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、「幻覚」、非ニュースジャンルでの低パフォーマンス、正確な要約ではない出力をもたらす。 acl 2023 の 'reality check' テーマを対象とし,抽象要約の評価のために 12 種類の文章・音声ジャンルの英語サマリーの小規模かつ精巧なデータセットである gumsum を提案する。要約は、置換可能性、事実性、忠実性に重点が置かれている。我々は,近年のシステムアウトプットの主観的判断だけでなく,一般分野の未調整アプローチ,微調整アプローチ,即時的アプローチを人間のパフォーマンスと比較し,ガイドラインと人的合意を評価する。結果は、GPT3は印象的なスコアを得る一方で、ジャンルによって異なる品質で人間を劣勢にしていることを示している。人間の判断は、監督、刺激、人為的な要約において異なる種類のエラーを明らかにし、良い要約を生み出すという課題に光を当てる。

関連論文リスト

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
GUMsley: Evaluating Entity Salience in Summarization for 12 English Genres [14.37990666928991]
GUMsleyは、12のジャンルの英語テキストに対して、名前付きおよび名前なしの敬意的エンティティを全てカバーする最初のエンティティ・サリエンス・データセットである。いくつかのモデルアーキテクチャに対して健全なエンティティを予測または提供することにより、パフォーマンスが向上し、高品質なサマリーの導出に役立つことを示す。
論文参考訳（メタデータ） (2024-01-31T16:30:50Z)
AugSumm: towards generalizable speech summarization using synthetic labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。 AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文参考訳（メタデータ） (2024-01-10T18:39:46Z)
Is Summary Useful or Not? An Extrinsic Human Evaluation of Text Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文参考訳（メタデータ） (2023-05-24T11:34:39Z)
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (2023-03-27T22:30:39Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Human-in-the-loop Abstractive Dialogue Summarization [61.4108097664697]
我々は、異なるレベルの人間のフィードバックをトレーニングプロセスに組み込むことを提案する。これにより、モデルをガイドして、人間が要約に用いている振る舞いを捉えることができます。
論文参考訳（メタデータ） (2022-12-19T19:11:27Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)
On Faithfulness and Factuality in Abstractive Summarization [17.261247316769484]
我々は抽象文書要約のためのニューラルテキスト生成モデルの制約を解析した。これらのモデルは、入力文書に反するコンテンツを幻覚させる傾向にあることがわかった。テキスト・エンタテインメントの指標は,標準指標よりも忠実度と相関性が高いことを示す。
論文参考訳（メタデータ） (2020-05-02T00:09:16Z)
Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文参考訳（メタデータ） (2020-04-21T16:54:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。