論文の概要: On Context Utilization in Summarization with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10570v2
- Date: Thu, 30 Nov 2023 09:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:00:21.455947
- Title: On Context Utilization in Summarization with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた要約における文脈利用について
- Authors: Mathieu Ravaut, Shafiq Joty, Aixin Sun, Nancy F. Chen
- Abstract要約: 大言語モデル(LLM)はゼロショット抽象的な要約タスクに優れる。
本稿では,これらのモデルがどのようにそれらの入力を抽象的な要約に活用するかを検討する。
- 参考スコア(独自算出の注目度): 91.59419922599619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in zero-shot abstractive summarization
tasks, delivering fluent and pertinent summaries. Recent advancements have
extended their capabilities to handle long-input contexts, surpassing token
limits of 100k. However, in the realm of multi-document question answering,
language models exhibit uneven utilization of their input context. They tend to
favor the initial and final segments, resulting in a U-shaped performance
pattern concerning where the answer is located within the input. This bias
raises concerns, particularly in summarization tasks where crucial content may
be dispersed throughout the source document(s). This paper presents a
comprehensive investigation encompassing 10 datasets, 5 LLMs, and 5 evaluation
metrics to analyze how these models leverage their input for abstractive
summarization. Our findings reveal a pronounced bias towards the introductory
content (and to a lesser extent, the final content), posing challenges for LLM
performance across a range of diverse summarization benchmarks.
- Abstract(参考訳): 大型言語モデル (LLM) はゼロショット抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kのトークン制限を越えて、長期入力コンテキストを扱う能力を拡張している。
しかし、多文書質問応答の領域では、言語モデルは入力コンテキストの不均一な利用を示す。
彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。
このバイアスは、特に重要なコンテンツがソースドキュメント全体に分散する可能性がある要約タスクにおいて、懸念を引き起こす。
本稿では,10個のデータセット,5個のLLM,および5つの評価指標を包含した総合的な調査を行い,これらのモデルを抽象的な要約にどのように活用するか分析する。
以上の結果から,初歩的なコンテンツに対する偏りが顕著であり(かつ,最終内容も少ない),様々な要約ベンチマークにおいてllmのパフォーマンスが課題となっていることが明らかとなった。
関連論文リスト
- Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - Gender Bias in News Summarization: Measures, Pitfalls and Corpora [5.8088738147746914]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。
本稿では,階層属性を慎重に制御した入力文書を生成する手法を提案する。
目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。
論文 参考訳(メタデータ) (2023-09-14T22:20:27Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - On the State of German (Abstractive) Text Summarization [3.1776833268555134]
ドイツの抽象的テキスト要約の景観を評価する。
業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
論文 参考訳(メタデータ) (2023-01-17T18:59:20Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。