論文の概要: Abstractive Summarization of Large Document Collections Using GPT
- arxiv url: http://arxiv.org/abs/2310.05690v1
- Date: Mon, 9 Oct 2023 13:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 05:00:59.978071
- Title: Abstractive Summarization of Large Document Collections Using GPT
- Title(参考訳): GPTを用いた大規模文書コレクションの抽象要約
- Authors: Sengjie Liu, Christopher G. Healey
- Abstract要約: 本稿では,個々の文書ではなく,文書コレクションにスケールするために設計された抽象的な要約手法を提案する。
提案手法では,トピッククラスタ内のセマンティッククラスタリング,トピッククラスタ内の文書サイズ削減,クラスタの文書のセマンティックチャンク,GPTに基づく要約と結合,各トピックの感情とテキストの可視化を組み合わせて探索データ解析を支援する。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a method of abstractive summarization designed to scale
to document collections instead of individual documents. Our approach applies a
combination of semantic clustering, document size reduction within topic
clusters, semantic chunking of a cluster's documents, GPT-based summarization
and concatenation, and a combined sentiment and text visualization of each
topic to support exploratory data analysis. Statistical comparison of our
results to existing state-of-the-art systems BART, BRIO, PEGASUS, and MoCa
using ROGUE summary scores showed statistically equivalent performance with
BART and PEGASUS on the CNN/Daily Mail test dataset, and with BART on the
Gigaword test dataset. This finding is promising since we view document
collection summarization as more challenging than individual document
summarization. We conclude with a discussion of how issues of scale are
- Abstract(参考訳): 本稿では,個々の文書ではなく,文書コレクションにスケール可能な抽象要約手法を提案する。
提案手法では,トピッククラスタ内のセマンティッククラスタリング,トピッククラスタ内の文書サイズ削減,クラスタの文書のセマンティックチャンク,GPTに基づく要約と結合,各トピックの感情とテキストの可視化を組み合わせて探索データ解析を支援する。
ROGUEサマリースコアを用いた既存の最先端システムBART, BRIO, PEGASUS, MoCaとの比較では, CNN/Daily MailテストデータセットではBART, PEGASUS, GigawordテストデータセットではBART, BARTと統計的に同等の性能を示した。
この発見は、文書コレクションの要約が個々の文書の要約よりも難しいと考えているため、有望である。
結論として スケールの問題がどのようにして
関連論文リスト
- JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization [3.992091862806936]
私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータから,JADS(Joint Aspect Discovery and Summarization Algorithm)が入力からアスペクトを検出する。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
論文 参考訳(メタデータ) (2024-05-28T23:01:57Z) - Vietnamese multi-document summary using subgraph selection approach --
VLSP 2022 AbMuSu Shared Task [0.0]
文書要約は、文書の流動的で凝縮した要約を生成するタスクである。
本稿では,抽出MDS問題をサブグラフ選択に変換することに焦点を当てる。
VLSP評価キャンペーン2022で発表されたベトナムのデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-06-26T16:34:02Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - AgreeSum: Agreement-Oriented Multi-Document Summarization [3.4743618614284113]
記事の集合が与えられた場合、ゴールはすべての入力記事に共通かつ忠実な情報を表す抽象的な要約を提供することである。
我々は、AgreeSumのデータセットを作成し、データセット内のクラスタのサブセットについて、記事の要約関係に関するアノテーションを提供します。
論文 参考訳(メタデータ) (2021-06-04T06:17:49Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。