論文の概要: Enhancing Faithfulness in Abstractive Summarization via Span-Level Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.09915v1
- Date: Fri, 10 Oct 2025 23:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.69145
- Title: Enhancing Faithfulness in Abstractive Summarization via Span-Level Fine-Tuning
- Title(参考訳): Span-Level Fine-Tuningによる抽象要約における忠実度向上
- Authors: Sicong Huang, Qianqi Yan, Shengze Wang, Ian Lane,
- Abstract要約: 我々は、スパンレベルのラベルを持つ忠実で不誠実な要約の両方を含む新しいデータセットを導入する。
我々は,LLMを微調整する3つの手法を評価し,その結果の要約の忠実さを向上させる。
- 参考スコア(独自算出の注目度): 3.9689644302388145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstractive summarization using large language models (LLMs) has become an essential tool for condensing information. However, despite their ability to generate fluent summaries, these models sometimes produce unfaithful summaries, introducing hallucinations at the word, phrase, or concept level. Existing mitigation strategies, such as post-processing corrections or contrastive learning with synthetically generated negative samples, fail to fully address the diverse errors that can occur in LLM-generated summaries. In this paper, we investigate fine-tuning strategies to reduce the occurrence of unfaithful spans in generated summaries. First, we automatically generate summaries for the set of source documents in the training set with a variety of LLMs and then use GPT-4o to annotate any hallucinations it detects at the span-level. Leveraging these annotations, we fine-tune LLMs with both hallucination-free summaries and annotated unfaithful spans to enhance model faithfulness. In this paper, we introduce a new dataset that contains both faithful and unfaithful summaries with span-level labels and we evaluate three techniques to fine-tuning a LLM to improve the faithfulness of the resulting summarization: gradient ascent, unlikelihood training, and task vector negation. Experimental results show that all three approaches successfully leverage span-level annotations to improve faithfulness, with unlikelihood training being the most effective.
- Abstract(参考訳): 大規模言語モデル (LLM) を用いた抽象的要約は, 情報を凝縮するための重要なツールとなっている。
しかし、流動的な要約を生成する能力があるにもかかわらず、これらのモデルは時に不誠実な要約を生み出し、その語、句、概念レベルで幻覚を導入する。
既存の緩和戦略、例えば後処理の修正や合成陰性サンプルによる対照的な学習は、LLM生成サマリーで起こりうる多様なエラーに完全に対処することができない。
本稿では,生成要約における不誠実なスパンの発生を低減するための微調整戦略について検討する。
まず,各種LLMを用いたトレーニングセットのソース文書集合の要約を自動生成し,次にGPT-4oを用いて,検出した幻覚をスパンレベルでアノテートする。
これらのアノテーションを活用することで、幻覚のない要約と注釈付き不誠実なスパンの両方でLLMを微調整し、モデルの忠実性を高めます。
本稿では,スパンレベルのラベルを持つ忠実な要約と不誠実な要約の両方を含む新しいデータセットを導入し,LLMを微調整し,結果として得られる要約の忠実度を改善するための3つの手法を評価する。
実験の結果,これら3つのアプローチは,信頼度を向上させるためにスパンレベルのアノテーションを効果的に活用できることが示唆された。
関連論文リスト
- Learning to Summarize from LLM-generated Feedback [18.937441310579164]
本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。
我々の実験は、フィードバックの質、寸法、粒度が好みの学習にどのように影響するかを示す。
SummLlama3-8bはLlama3-70bの約10倍の精度で人為的な要約を生成するモデルである。
論文 参考訳(メタデータ) (2024-10-17T01:01:09Z) - Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency [5.9858789096400224]
大型言語モデル(LLM)は幻覚と呼ばれる現実的な矛盾の問題に悩まされる。
本稿では,スライディングウィンドウと自己整合性を利用した新しい要約生成戦略,すなわちSliSumを提案する。
SliSumは、LLaMA-2、Claude-2、GPT-3.5を含む多種多様なLLMの短文要約および長文要約における忠実性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-31T08:48:48Z) - A Guide To Effectively Leveraging LLMs for Low-Resource Text Summarization: Data Augmentation and Semi-supervised Approaches [12.582774521907227]
低リソーステキスト要約のための既存のアプローチは、主に推論時に大きな言語モデル(LLM)を使用して要約を直接生成する。
低リソーステキスト要約に LLM を効果的に活用する2つの新しい手法を提案する: 1) LLM ベースのデータ拡張方式である MixSumm と、(2) PPSL は、サンプル効率の半教師付きテキスト要約のための即時的な擬似ラベル方式である。
論文 参考訳(メタデータ) (2024-07-10T03:25:47Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。