論文の概要: Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency
- arxiv url: http://arxiv.org/abs/2407.21443v1
- Date: Wed, 31 Jul 2024 08:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:22:17.979172
- Title: Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency
- Title(参考訳): スライディング生成と自己整合性による要約における大規模言語モデルの忠実度向上
- Authors: Taiji Li, Zhi Li, Yin Zhang,
- Abstract要約: 大型言語モデル(LLM)は幻覚と呼ばれる現実的な矛盾の問題に悩まされる。
本稿では,スライディングウィンドウと自己整合性を利用した新しい要約生成戦略,すなわちSliSumを提案する。
SliSumは、LLaMA-2、Claude-2、GPT-3.5を含む多種多様なLLMの短文要約および長文要約における忠実性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 5.9858789096400224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite large language models (LLMs) have demonstrated impressive performance in various tasks, they are still suffering from the factual inconsistency problem called hallucinations. For instance, LLMs occasionally generate content that diverges from source article, and prefer to extract information that appears at the beginning and end of the context, especially in long document summarization. Inspired by these findings, we propose to improve the faithfulness of LLMs in summarization by impelling them to process the entire article more fairly and faithfully. We present a novel summary generation strategy, namely SliSum, which exploits the ideas of sliding windows and self-consistency. Specifically, SliSum divides the source article into overlapping windows, and utilizes LLM to generate local summaries for the content in the windows. Finally, SliSum aggregates all local summaries using clustering and majority voting algorithm to produce more faithful summary of entire article. Extensive experiments demonstrate that SliSum significantly improves the faithfulness of diverse LLMs including LLaMA-2, Claude-2 and GPT-3.5 in both short and long text summarization, while maintaining their fluency and informativeness and without additional fine-tuning and resources. We further conduct qualitative and quantitative studies to investigate why SliSum works and impacts of hyperparameters in SliSum on performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著なパフォーマンスを示してきたが、幻覚と呼ばれる現実的な矛盾の問題に悩まされている。
例えば、LLMは、ソース記事から分岐するコンテンツを生成し、特に長い文書要約において、コンテキストの開始と終了に現れる情報を抽出することを好む。
これらの知見に触発されて,本論文全体をより公平かつ忠実に処理するよう促すことにより,要約におけるLCMの忠実さを向上させることを提案する。
本稿では,スライディングウィンドウと自己整合性を利用した新しい要約生成戦略,すなわちSliSumを提案する。
具体的には、SliSumはソース記事を重なり合うウィンドウに分割し、LLMを使用してウィンドウ内のコンテンツの局所的な要約を生成する。
最後に、SliSumはクラスタリングと多数決投票アルゴリズムを使ってすべてのローカル要約を集約し、記事全体のより忠実な要約を生成する。
SliSumは,LLaMA-2,Claude-2,GPT-3.5といった多種多様なLCMの短文要約における忠実さを向上すると同時に,その流速と情報性を維持しつつ,追加の微調整や資源を必要とせずに向上することを示した。
さらに、SliSumがなぜ機能するのか、またSliSumのハイパーパラメータが性能に与える影響を定性的かつ定量的に研究する。
関連論文リスト
- Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - LaMSUM: Creating Extractive Summaries of User Generated Content using LLMs [6.770555526416268]
大規模言語モデル(LLM)は、要約を含む幅広いNLPタスクにおいて、印象的なパフォーマンスを示している。
本稿では,ユーザ生成テキストの集合から抽出要約を生成する新しいフレームワークであるLaMSUMを紹介する。
論文 参考訳(メタデータ) (2024-06-22T10:25:55Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? [19.814974042343028]
科学的な要約タスクにおける大規模言語モデル(LLM)の可制御性について検討する。
MuP レビュー生成タスクでは,非微調整 LLM が人間より優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-18T23:00:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。