論文の概要: Benchmarking Large Language Models for News Summarization
- arxiv url: http://arxiv.org/abs/2301.13848v1
- Date: Tue, 31 Jan 2023 18:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:26:57.172883
- Title: Benchmarking Large Language Models for News Summarization
- Title(参考訳): ニュース要約のための大規模言語モデルのベンチマーク
- Authors: Tianyi Zhang, Faisal Ladhak, Esin Durmus, Percy Liang, Kathleen
McKeown, Tatsunori B. Hashimoto
- Abstract要約: 大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
- 参考スコア(独自算出の注目度): 79.37850439866938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise for automatic summarization
but the reasons behind their successes are poorly understood. By conducting a
human evaluation on ten LLMs across different pretraining methods, prompts, and
model scales, we make two important observations. First, we find instruction
tuning, and not model size, is the key to the LLM's zero-shot summarization
capability. Second, existing studies have been limited by low-quality
references, leading to underestimates of human performance and lower few-shot
and finetuning performance. To better evaluate LLMs, we perform human
evaluation over high-quality summaries we collect from freelance writers.
Despite major stylistic differences such as the amount of paraphrasing, we find
that LMM summaries are judged to be on par with human written summaries.
- Abstract(参考訳): 大規模言語モデル(LLM)は自動要約を約束しているが、成功の背景にある理由はよく分かっていない。
異なる事前学習方法,プロンプト,モデルスケールで10個のLLMに対して人間による評価を行うことで,2つの重要な観察を行った。
まず、LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニングである。
第二に、既存の研究は低品質の参照によって制限されており、人間のパフォーマンスと少ないショットと微調整のパフォーマンスの過小評価につながっている。
LLMを評価するために,フリーライターから収集した高品質な要約に対して人間による評価を行う。
パラフレーズの量などの文体的な違いは大きいが,LMM要約は人文要約と同等であると判断されている。
関連論文リスト
- PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Zero-shot Conversational Summarization Evaluations with small Large
Language Models [7.525771026977357]
大きな言語モデル(LLM)は強力な要約能力を示す。
我々は,会話要約におけるLLMの評価を行い,その性能を様々なプロンプトで示す。
また、人間の評価によるモデルの評価を行い、会話要約におけるモデルの限界について議論する。
論文 参考訳(メタデータ) (2023-11-29T19:34:34Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。