論文の概要: Long Text and Multi-Table Summarization: Dataset and Method
- arxiv url: http://arxiv.org/abs/2302.03815v1
- Date: Wed, 8 Feb 2023 00:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:41:22.545126
- Title: Long Text and Multi-Table Summarization: Dataset and Method
- Title(参考訳): 長文と多テーブル要約:データセットおよび方法
- Authors: Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen
- Abstract要約: FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。
それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。
生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
- 参考スコア(独自算出の注目度): 20.90939310713561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic document summarization aims to produce a concise summary covering
the input document's salient information. Within a report document, the salient
information can be scattered in the textual and non-textual content. However,
existing document summarization datasets and methods usually focus on the text
and filter out the non-textual content. Missing tabular data can limit produced
summaries' informativeness, especially when summaries require covering
quantitative descriptions of critical metrics in tables. Existing datasets and
methods cannot meet the requirements of summarizing long text and multiple
tables in each report. To deal with the scarcity of available data, we propose
FINDSum, the first large-scale dataset for long text and multi-table
summarization. Built on 21,125 annual reports from 3,794 companies, it has two
subsets for summarizing each company's results of operations and liquidity. To
summarize the long text and dozens of tables in each report, we present three
types of summarization methods. Besides, we propose a set of evaluation metrics
to assess the usage of numerical information in produced summaries. Dataset
analyses and experimental results indicate the importance of jointly
considering input textual and tabular data when summarizing report documents.
- Abstract(参考訳): 自動文書要約は、入力された文書の健全な情報をカバーする簡潔な要約を作成することを目的としている。
レポート文書内では、テキスト内容および非テキスト内容に、敬称情報を散布することができる。
しかし、既存の文書要約データセットとメソッドは通常テキストに集中し、テキスト以外のコンテンツをフィルタリングする。
表データの欠落は、特に表内の重要なメトリクスの量的記述を網羅する必要がある場合、生成した要約の情報性を制限する可能性がある。
既存のデータセットとメソッドは、各レポートで長いテキストと複数のテーブルを要約する要件を満たせない。
利用可能なデータの不足に対処するため、我々はFINDSumを提案し、これは長文とマルチテーブルの要約のための最初の大規模データセットである。
3,794社による21,125の年次レポートに基づいて構築され、各企業の運用と流動性の成果を要約する2つのサブセットがある。
各レポートの長文と数十の表を要約するために,3種類の要約手法を提案する。
さらに,生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
データセット分析と実験結果から,レポート資料の要約において,入力テキストと表形式のデータを共同で検討することの重要性が示唆された。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文 参考訳(メタデータ) (2023-02-02T22:38:23Z) - A Survey on Neural Abstractive Summarization Methods and Factual
Consistency of Summarization [18.763290930749235]
要約は、サブセット(要約)を作成するために、テキストデータの集合を計算的に短縮する過程である
既存の要約法は、抽出法と抽象法という2つのタイプに大別できる。
抽出要約器は、ソース文書からテキストスニペットを明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝えるために、新しいテキストスニペットを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:56:36Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。