論文の概要: Learning to Summarize from LLM-generated Feedback
- arxiv url: http://arxiv.org/abs/2410.13116v1
- Date: Thu, 17 Oct 2024 01:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:04.917972
- Title: Learning to Summarize from LLM-generated Feedback
- Title(参考訳): LLM生成フィードバックからの要約学習
- Authors: Hwanjun Song, Taewon Yun, Yuho Lee, Gihun Lee, Jason Cai, Hang Su,
- Abstract要約: 本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。
我々の実験は、フィードバックの質、寸法、粒度が好みの学習にどのように影響するかを示す。
SummLlama3-8bはLlama3-70bの約10倍の精度で人為的な要約を生成するモデルである。
- 参考スコア(独自算出の注目度): 19.227353364365715
- License:
- Abstract: Developing effective text summarizers remains a challenge due to issues like hallucinations, key information omissions, and verbosity in LLM-generated summaries. This work explores using LLM-generated feedback to improve summary quality by aligning the summaries with human preferences for faithfulness, completeness, and conciseness. We introduce FeedSum, a large-scale dataset containing multi-dimensional LLM feedback on summaries of varying quality across diverse domains. Our experiments show how feedback quality, dimensionality, and granularity influence preference learning, revealing that high-quality, multi-dimensional, fine-grained feedback significantly improves summary generation. We also compare two methods for using this feedback: supervised fine-tuning and direct preference optimization. Finally, we introduce SummLlama3-8b, a model that outperforms the nearly 10x larger Llama3-70b-instruct in generating human-preferred summaries, demonstrating that smaller models can achieve superior performance with appropriate training. The full dataset will be released soon. The SummLlama3-8B model is now available at https://huggingface.co/DISLab/SummLlama3-8B.
- Abstract(参考訳): 効果的なテキスト要約器の開発は、LLM生成要約における幻覚、重要な情報欠落、冗長性などの問題により、依然として課題である。
本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。
本稿では,多次元LLMフィードバックを含む大規模データセットFeedSumを紹介する。
本実験は, フィードバック品質, 寸法, 粒度が嗜好学習にどのように影響するかを示し, 高品質, 多次元, きめ細かいフィードバックが要約生成を著しく改善することを示した。
また、このフィードバックを利用する方法として、教師付き微調整と直接選好最適化の2つを比較した。
SummLlama3-8bはLlama3-70bの約10倍の精度で人為的なサマリーを生成するモデルであり、より小さなモデルでは適切なトレーニングで優れた性能が得られることを示す。
完全なデータセットはまもなくリリースされる予定だ。
SummLlama3-8Bモデルはhttps://huggingface.co/DISLab/SummLlama3-8Bで利用可能である。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。
標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-27T10:35:45Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。