論文の概要: Learning to Verify Summary Facts with Fine-Grained LLM Feedback
- arxiv url: http://arxiv.org/abs/2412.10689v1
- Date: Sat, 14 Dec 2024 05:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:11.702427
- Title: Learning to Verify Summary Facts with Fine-Grained LLM Feedback
- Title(参考訳): 微粒化LDMフィードバックによるサマリファクトの検証
- Authors: Jihwan Oh, Jeonghwan Choi, Nicole Hee-Yeon Kim, Taewon Yun, Hwanjun Song,
- Abstract要約: 自動要約事実検証の訓練は、人間がラベル付けしたデータの不足という課題に直面していることが多い。
本研究では,要約に関する詳細な事実フィードバックを含む大規模データセットであるFineSumFactを紹介する。
- 参考スコア(独自算出の注目度): 15.007479147796403
- License:
- Abstract: Training automatic summary fact verifiers often faces the challenge of a lack of human-labeled data. In this paper, we explore alternative way of leveraging Large Language Model (LLM) generated feedback to address the inherent limitation of using human-labeled data. We introduce FineSumFact, a large-scale dataset containing fine-grained factual feedback on summaries. We employ 10 distinct LLMs for diverse summary generation and Llama-3-70B-Instruct for feedback. We utilize this dataset to fine-tune the lightweight open-source model Llama-3-8B-Instruct, optimizing resource efficiency while maintaining high performance. Our experimental results reveal that the model trained on extensive LLM-generated datasets surpasses that trained on smaller human-annotated datasets when evaluated using human-generated test sets. Fine-tuning fact verification models with LLM feedback can be more effective and cost-efficient than using human feedback. The dataset is available at https://github.com/DISL-Lab/FineSumFact.
- Abstract(参考訳): 自動要約事実検証の訓練は、人間がラベル付けしたデータの不足という課題に直面していることが多い。
本稿では,Large Language Model (LLM) の生成したフィードバックを活用する代替手法について検討する。
本研究では,要約に関する詳細な事実フィードバックを含む大規模データセットであるFineSumFactを紹介する。
Llama-3-70B-Instruct for feedback。
このデータセットを用いて軽量なオープンソースモデルであるLlama-3-8B-Instructを微調整し、高い性能を維持しながら資源効率を最適化する。
実験結果から,LLM生成データセットをトレーニングしたモデルが,人間生成テストセットを用いて評価した場合に,より小さなアノテートデータセットをトレーニングしたモデルを上回っていることが判明した。
LLMフィードバックを用いたファインチューニング事実検証モデルは、人間のフィードバックよりも効率的でコスト効率が高い。
データセットはhttps://github.com/DISL-Lab/FineSumFact.comで公開されている。
関連論文リスト
- Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
両者の強みを生かしたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-15T20:13:46Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Learning to Summarize from LLM-generated Feedback [18.937441310579164]
本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。
我々の実験は、フィードバックの質、寸法、粒度が好みの学習にどのように影響するかを示す。
SummLlama3-8bはLlama3-70bの約10倍の精度で人為的な要約を生成するモデルである。
論文 参考訳(メタデータ) (2024-10-17T01:01:09Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。