論文の概要: News Summarization and Evaluation in the Era of GPT-3
- arxiv url: http://arxiv.org/abs/2209.12356v2
- Date: Tue, 23 May 2023 22:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:24:16.157708
- Title: News Summarization and Evaluation in the Era of GPT-3
- Title(参考訳): GPT-3時代のニュース要約と評価
- Authors: Tanya Goyal, Junyi Jessy Li, Greg Durrett
- Abstract要約: GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
- 参考スコア(独自算出の注目度): 73.48220043216087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of prompting large language models like GPT-3 has led to a
paradigm shift in NLP research. In this paper, we study its impact on text
summarization, focusing on the classic benchmark domain of news summarization.
First, we investigate how GPT-3 compares against fine-tuned models trained on
large summarization datasets. We show that not only do humans overwhelmingly
prefer GPT-3 summaries, prompted using only a task description, but these also
do not suffer from common dataset-specific issues such as poor factuality.
Next, we study what this means for evaluation, particularly the role of gold
standard test sets. Our experiments show that both reference-based and
reference-free automatic metrics cannot reliably evaluate GPT-3 summaries.
Finally, we evaluate models on a setting beyond generic summarization,
specifically keyword-based summarization, and show how dominant fine-tuning
approaches compare to prompting.
To support further research, we release: (a) a corpus of 10K generated
summaries from fine-tuned and prompt-based models across 4 standard
summarization benchmarks, (b) 1K human preference judgments comparing different
systems for generic- and keyword-based summarization.
- Abstract(参考訳): GPT-3のような大規模言語モデルの成功は、NLP研究のパラダイムシフトにつながった。
本稿では,ニュース要約の古典的ベンチマーク領域に着目し,テキスト要約への影響について検討する。
まず,GPT-3が大規模要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
次に,これが評価にどのような意味を持つか,特に金標準テストセットの役割について検討する。
実験の結果,基準ベースと基準フリーの両自動メトリクスはGPT-3サマリーを確実に評価できないことがわかった。
最後に,一般的な要約,特にキーワードに基づく要約以外の設定におけるモデルを評価し,微調整アプローチとプロンプトの比較を示す。
さらなる研究を支援するために リリースします
(a)4つの標準要約ベンチマークにまたがる微調整モデルとプロンプトベースモデルから10Kのコーパスを生成する。
(b)ジェネリックおよびキーワードに基づく要約のための異なるシステムを比較する1K人の嗜好判断。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - Summarizing, Simplifying, and Synthesizing Medical Evidence Using GPT-3
(with Varying Success) [36.646495151276326]
GPT-3は、いくつかの設定とゼロショット設定で、一般的なドメインニュース記事の高品質な要約を生成することができる。
我々は,GPT-3が生み出すバイオメディカル記事の要約を評価するために,ドメインエキスパート(個別の医療研修)を募集した。
論文 参考訳(メタデータ) (2023-05-10T16:40:37Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。
我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2022-11-29T04:06:21Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。