論文の概要: Summarization is (Almost) Dead
- arxiv url: http://arxiv.org/abs/2309.09558v1
- Date: Mon, 18 Sep 2023 08:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:32:11.282111
- Title: Summarization is (Almost) Dead
- Title(参考訳): 要約は(ほとんど)死んだ
- Authors: Xiao Pu, Mingqi Gao, Xiaojun Wan
- Abstract要約: 我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
- 参考スコア(独自算出の注目度): 49.360752383801305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How well can large language models (LLMs) generate summaries? We develop new
datasets and conduct human evaluation experiments to evaluate the zero-shot
generation capability of LLMs across five distinct summarization tasks. Our
findings indicate a clear preference among human evaluators for LLM-generated
summaries over human-written summaries and summaries generated by fine-tuned
models. Specifically, LLM-generated summaries exhibit better factual
consistency and fewer instances of extrinsic hallucinations. Due to the
satisfactory performance of LLMs in summarization tasks (even surpassing the
benchmark of reference summaries), we believe that most conventional works in
the field of text summarization are no longer necessary in the era of LLMs.
However, we recognize that there are still some directions worth exploring,
such as the creation of novel datasets with higher quality and more reliable
evaluation methods.
- Abstract(参考訳): 大規模言語モデル(llm)はどの程度要約を生成するのか?
我々は,新しいデータセットを開発し,人間の評価実験を行い,LLMのゼロショット生成能力を評価する。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
特に、LCM生成サマリーは、より良い事実整合性を示し、外因性幻覚の少ない例を示す。
要約タスクにおけるLLMの良好な性能(参照要約のベンチマークを超越しても)のため、LLMの時代にはテキスト要約の分野における従来の作業はもはや必要ないと我々は信じている。
しかし、我々は、高品質で信頼性の高い評価手法による新しいデータセットの作成など、探索する価値のある方向性がまだあることを認識している。
関連論文リスト
- LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - On Learning to Summarize with Large Language Models as References [113.41909412365392]
本研究では,大規模言語モデル(LLM)をゴールドスタンダード・オラクルの参照とみなす,テキスト要約モデルの新たな学習パラダイムについて検討する。
要約品質評価器としてLLMを用いたコントラスト学習に基づく新しい学習手法を提案する。
CNN/DailyMailデータセットを用いた実験により,提案手法によって訓練されたより小さな要約モデルにより,基準LLMと同等以上の性能が得られることを示した。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Are Large Language Models Good Evaluators for Abstractive Summarization? [34.367245532934085]
「gpt-3.5-turbo」はデモや複雑なプロンプトチューニングを手動で選択することなく、要約評価に使用できる。
評価法は,2つの評価法と1つの評価法を比較した。
特定のプロンプトフォーマットは、他のフォーマットよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [77.67225514082953]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。