論文の概要: Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method
- arxiv url: http://arxiv.org/abs/2305.13412v1
- Date: Mon, 22 May 2023 18:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:58:18.066296
- Title: Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method
- Title(参考訳): 大規模言語モデルを用いた要素認識要約:エキスパートアライメント評価と整合解法
- Authors: Yiming Wang, Zhuosheng Zhang, Rui Wang
- Abstract要約: 自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
- 参考スコア(独自算出の注目度): 35.181659789684545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic summarization generates concise summaries that contain key ideas of
source documents. As the most mainstream datasets for the news sub-domain,
CNN/DailyMail and BBC XSum have been widely used for performance benchmarking.
However, the reference summaries of those datasets turn out to be noisy, mainly
in terms of factual hallucination and information redundancy. To address this
challenge, we first annotate new expert-writing Element-aware test sets
following the "Lasswell Communication Model" proposed by Lasswell (1948),
allowing reference summaries to focus on more fine-grained news elements
objectively and comprehensively. Utilizing the new test sets, we observe the
surprising zero-shot summary ability of LLMs, which addresses the issue of the
inconsistent results between human preference and automatic evaluation metrics
of LLMs' zero-shot summaries in prior work. Further, we propose a Summary
Chain-of-Thought (SumCoT) technique to elicit LLMs to generate summaries step
by step, which helps them integrate more fine-grained details of source
documents into the final summaries that correlate with the human writing
mindset. Experimental results show our method outperforms state-of-the-art
fine-tuned PLMs and zero-shot LLMs by +4.33/+4.77 in ROUGE-L on the two
datasets, respectively. Dataset and code are publicly available at
https://github.com/Alsace08/SumCoT.
- Abstract(参考訳): 自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
ニュースサブドメインの最も主要なデータセットとして、CNN/DailyMailとBBC XSumはパフォーマンスベンチマークに広く使われている。
しかし、これらのデータセットの参照要約は、主に事実幻覚と情報冗長性の観点から、騒がしいことが判明した。
この課題に対処するために、lasswell (1948) によって提案された "lasswell communication model" に従って、新しいエキスパートライティング要素認識テストセットにアノテートを行い、参照要約がより詳細なニュース要素を客観的かつ包括的に焦点を合わせられるようにした。
新しいテストセットを利用することで、従来の作業におけるLLMのゼロショットサマリーの自動評価指標と人間の嗜好の矛盾した結果の問題に対処する、驚くべきゼロショットサマリー能力を観察する。
さらに,LCMを段階的に抽出して要約を生成するSumCoT手法を提案する。これにより,よりきめ細かなソース文書の詳細を,人間の文章の考え方と相関する最終要約に組み込むことができる。
実験結果から, ROUGE-L において, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で比較した。
データセットとコードはhttps://github.com/Alsace08/SumCoT.comで公開されている。
関連論文リスト
- Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - LaMSUM: Creating Extractive Summaries of User Generated Content using LLMs [6.770555526416268]
大規模言語モデル(LLM)は、要約を含む幅広いNLPタスクにおいて、印象的なパフォーマンスを示している。
本稿では,ユーザ生成テキストの集合から抽出要約を生成する新しいフレームワークであるLaMSUMを紹介する。
論文 参考訳(メタデータ) (2024-06-22T10:25:55Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。