論文の概要: Long Text and Multi-Table Summarization: Dataset and Method
- arxiv url: http://arxiv.org/abs/2302.03815v1
- Date: Wed, 8 Feb 2023 00:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:41:22.545126
- Title: Long Text and Multi-Table Summarization: Dataset and Method
- Title(参考訳): 長文と多テーブル要約:データセットおよび方法
- Authors: Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen
- Abstract要約: FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。
それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。
生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
- 参考スコア(独自算出の注目度): 20.90939310713561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic document summarization aims to produce a concise summary covering
the input document's salient information. Within a report document, the salient
information can be scattered in the textual and non-textual content. However,
existing document summarization datasets and methods usually focus on the text
and filter out the non-textual content. Missing tabular data can limit produced
summaries' informativeness, especially when summaries require covering
quantitative descriptions of critical metrics in tables. Existing datasets and
methods cannot meet the requirements of summarizing long text and multiple
tables in each report. To deal with the scarcity of available data, we propose
FINDSum, the first large-scale dataset for long text and multi-table
summarization. Built on 21,125 annual reports from 3,794 companies, it has two
subsets for summarizing each company's results of operations and liquidity. To
summarize the long text and dozens of tables in each report, we present three
types of summarization methods. Besides, we propose a set of evaluation metrics
to assess the usage of numerical information in produced summaries. Dataset
analyses and experimental results indicate the importance of jointly
considering input textual and tabular data when summarizing report documents.
- Abstract(参考訳): 自動文書要約は、入力された文書の健全な情報をカバーする簡潔な要約を作成することを目的としている。
レポート文書内では、テキスト内容および非テキスト内容に、敬称情報を散布することができる。
しかし、既存の文書要約データセットとメソッドは通常テキストに集中し、テキスト以外のコンテンツをフィルタリングする。
表データの欠落は、特に表内の重要なメトリクスの量的記述を網羅する必要がある場合、生成した要約の情報性を制限する可能性がある。
既存のデータセットとメソッドは、各レポートで長いテキストと複数のテーブルを要約する要件を満たせない。
利用可能なデータの不足に対処するため、我々はFINDSumを提案し、これは長文とマルチテーブルの要約のための最初の大規模データセットである。
3,794社による21,125の年次レポートに基づいて構築され、各企業の運用と流動性の成果を要約する2つのサブセットがある。
各レポートの長文と数十の表を要約するために,3種類の要約手法を提案する。
さらに,生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
データセット分析と実験結果から,レポート資料の要約において,入力テキストと表形式のデータを共同で検討することの重要性が示唆された。
関連論文リスト
- On Context Utilization in Summarization with Large Language Models [91.59419922599618]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文 参考訳(メタデータ) (2023-02-02T22:38:23Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - A Survey on Neural Abstractive Summarization Methods and Factual
Consistency of Summarization [18.763290930749235]
要約は、サブセット(要約)を作成するために、テキストデータの集合を計算的に短縮する過程である
既存の要約法は、抽出法と抽象法という2つのタイプに大別できる。
抽出要約器は、ソース文書からテキストスニペットを明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝えるために、新しいテキストスニペットを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:56:36Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。