論文の概要: On Learning to Summarize with Large Language Models as References
- arxiv url: http://arxiv.org/abs/2305.14239v1
- Date: Tue, 23 May 2023 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:34:43.291785
- Title: On Learning to Summarize with Large Language Models as References
- Title(参考訳): 大規模言語モデルによる要約学習について
- Authors: Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Dragomir Radev, Arman
Cohan
- Abstract要約: 本研究では,大規模言語モデル(LLM)をゴールドスタンダード・オラクルの参照とみなす,テキスト要約モデルの新たな学習パラダイムについて検討する。
要約品質評価器としてLLMを用いたコントラスト学習に基づく新しい学習手法を提案する。
CNN/DailyMailデータセットを用いた実験により,提案手法によって訓練されたより小さな要約モデルにより,基準LLMと同等以上の性能が得られることを示した。
- 参考スコア(独自算出の注目度): 113.41909412365392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have found that summaries generated by large language models
(LLMs) are favored by human annotators over the original reference summaries in
commonly used summarization datasets. Therefore, we investigate a new learning
paradigm of text summarization models that considers the LLMs as the reference
or the gold-standard oracle on commonly used summarization datasets such as the
CNN/DailyMail dataset. To examine the standard practices that are aligned with
the new learning setting, we propose a novel training method that is based on
contrastive learning with LLMs as a summarization quality evaluator. For this
reward-based training method, we investigate two different methods of utilizing
LLMs for summary quality evaluation, namely GPTScore and GPTRank. Our
experiments on the CNN/DailyMail dataset demonstrate that smaller summarization
models trained by our proposed method can achieve performance equal to or
surpass that of the reference LLMs, as evaluated by the LLMs themselves. This
underscores the efficacy of our proposed paradigm in enhancing model
performance over the standard maximum likelihood estimation (MLE) training
method, and its efficiency since it only requires a small budget to access the
LLMs. We release the training scripts, model outputs, and LLM-based evaluation
results to facilitate future studies.
- Abstract(参考訳): 近年の研究では、大言語モデル(LLM)によって生成された要約は、一般的に使用される要約データセットの本来の参照要約よりも人間のアノテーションに好まれている。
そこで本研究では,CNN/DailyMailデータセットなどの一般的な要約データセットにおいて,LLMを参照とみなすテキスト要約モデルの新たな学習パラダイムについて検討する。
新たな学習環境に整合した標準的実践を検討するため,LLMを用いたコントラスト学習を要約品質評価手法として提案する。
本手法では, GPTScore と GPTRank という2種類の LLM を用いた要約品質評価手法について検討する。
CNN/DailyMailデータセットを用いた実験により,提案手法によって訓練されたより小さな要約モデルにより,LLM自体が評価した基準LLMと同等以上の性能が得られることを示した。
このことは,標準最大推定(MLE)トレーニング法よりもモデル性能を向上させる上での本提案手法の有効性と,LLMへのアクセスに最小限の予算しか必要としないため,その効率性を裏付けるものである。
今後の研究を促進するために,トレーニングスクリプト,モデル出力,llmベースの評価結果をリリースする。
関連論文リスト
- Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。