論文の概要: On Context Utilization in Summarization with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10570v3
- Date: Tue, 20 Feb 2024 05:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:25:35.574824
- Title: On Context Utilization in Summarization with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた要約における文脈利用について
- Authors: Mathieu Ravaut, Aixin Sun, Nancy F. Chen, Shafiq Joty
- Abstract要約: 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
- 参考スコア(独自算出の注目度): 91.59419922599618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in abstractive summarization tasks,
delivering fluent and pertinent summaries. Recent advancements have extended
their capabilities to handle long-input contexts, exceeding 100k tokens.
However, in question answering, language models exhibit uneven utilization of
their input context. They tend to favor the initial and final segments,
resulting in a U-shaped performance pattern concerning where the answer is
located within the input. This bias raises concerns, particularly in
summarization where crucial content may be dispersed throughout the source
document(s). Besides, in summarization, mapping facts from the source to the
summary is not trivial as salient content is usually re-phrased. In this paper,
we conduct the first comprehensive study on context utilization and position
bias in summarization. Our analysis encompasses 5 LLMs, 10 datasets, and 5
evaluation metrics. We introduce a new evaluation benchmark called MiddleSum on
the which we benchmark two alternative inference methods to alleviate position
bias: hierarchical summarization and incremental summarization.
- Abstract(参考訳): 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
しかし、質問応答において、言語モデルは入力コンテキストの不均一な利用を示す。
彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。
このバイアスは、特に重要なコンテンツがソース文書全体に分散されるような要約において、懸念を提起します。
さらに、要約において、ソースから要約への事実のマッピングは、通常、健全な内容が再記述されるため、簡単ではない。
本稿では,要約における文脈利用と位置バイアスに関する最初の総合研究を行う。
分析対象は,5つのLLM,10個のデータセット,および5つの評価指標である。
位置偏りを緩和するための2つの代替推論手法である階層的要約と漸進的要約をベンチマークした,ミドルサムと呼ばれる新しい評価ベンチマークを提案する。
関連論文リスト
- Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - Incremental Extractive Opinion Summarization Using Cover Trees [85.68795720476359]
オンラインマーケットプレースでは、ユーザレビューは時間とともに増加し、意見要約を定期的に更新する必要がある。
最先端の抽出的意見要約アプローチの多くは、CentroidRankのような中心性に基づくものである。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - Gender Bias in News Summarization: Measures, Pitfalls and Corpora [5.8088738147746914]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。
本稿では,階層属性を慎重に制御した入力文書を生成する手法を提案する。
目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。
論文 参考訳(メタデータ) (2023-09-14T22:20:27Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - On the State of German (Abstractive) Text Summarization [3.1776833268555134]
ドイツの抽象的テキスト要約の景観を評価する。
業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
論文 参考訳(メタデータ) (2023-01-17T18:59:20Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。