論文の概要: On Learning to Summarize with Large Language Models as References
- arxiv url: http://arxiv.org/abs/2305.14239v2
- Date: Thu, 16 Nov 2023 05:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:45:43.104407
- Title: On Learning to Summarize with Large Language Models as References
- Title(参考訳): 大規模言語モデルによる要約学習について
- Authors: Yixin Liu, Kejian Shi, Katherine S He, Longtian Ye, Alexander R.
Fabbri, Pengfei Liu, Dragomir Radev, Arman Cohan
- Abstract要約: 本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
- 参考スコア(独自算出の注目度): 105.62615205746106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have found that summaries generated by large language models
(LLMs) are favored by human annotators over the original reference summaries in
commonly used summarization datasets. Therefore, we investigate a new learning
setting of text summarization models that considers the LLMs as the reference
or the gold-standard oracle on these datasets. To examine the standard
practices that are aligned with this new learning setting, we investigate two
LLM-based summary quality evaluation methods for model training and adopt a
contrastive learning training method to leverage the LLM-guided learning
signals. Our experiments on the CNN/DailyMail and XSum datasets demonstrate
that smaller summarization models can achieve similar performance as LLMs under
LLM-based evaluation. However, we found that the smaller models can not yet
reach LLM-level performance under human evaluation despite promising
improvements brought by our proposed training methods. Meanwhile, we perform a
meta-analysis on this new learning setting that reveals a discrepancy between
human and LLM-based evaluation, highlighting the benefits and risks of this
LLM-as-reference setting we investigated.
- Abstract(参考訳): 近年の研究では、大言語モデル(LLM)によって生成された要約は、一般的に使用される要約データセットの本来の参照要約よりも人間のアノテーションに好まれている。
そこで,本研究では,LLMを参照あるいはゴールドスタンダードのオラクルとみなすテキスト要約モデルの新たな学習環境について検討する。
この新たな学習環境と整合する標準手法を検討するため,モデルトレーニングのための2つのLCMに基づく要約品質評価手法を検証し,LLM誘導学習信号を活用するためのコントラスト学習訓練手法を採用する。
CNN/DailyMail と XSum のデータセットを用いた実験により,LLM を用いた評価では,より小さな要約モデルでも LLM と同様の性能が得られることが示された。
しかし,本モデルでは,提案手法による有望な改善にもかかわらず,人間による評価ではLLMレベルに到達できないことがわかった。
一方,この学習環境において,人間とllmに基づく評価の相違を明らかにするメタアナリシスを行い,検討したllm-as-reference設定の利点とリスクを強調する。
関連論文リスト
- Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。