論文の概要: A Scalable Framework for Table of Contents Extraction from Complex ESG
Annual Reports
- arxiv url: http://arxiv.org/abs/2310.18073v1
- Date: Fri, 27 Oct 2023 11:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:11:26.161978
- Title: A Scalable Framework for Table of Contents Extraction from Complex ESG
Annual Reports
- Title(参考訳): 複雑ESG年報からのコンテンツテーブル抽出のためのスケーラブルなフレームワーク
- Authors: Xinyu Wang, Lin Gui, Yulan He
- Abstract要約: 2001年から2022年までの563社から1093社のESG年次レポートをまとめた新しいデータセットESGDocを提案する。
これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。
3つのステップからなる新しいToc抽出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.669390380593843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table of contents (ToC) extraction centres on structuring documents in a
hierarchical manner. In this paper, we propose a new dataset, ESGDoc,
comprising 1,093 ESG annual reports from 563 companies spanning from 2001 to
2022. These reports pose significant challenges due to their diverse structures
and extensive length. To address these challenges, we propose a new framework
for Toc extraction, consisting of three steps: (1) Constructing an initial tree
of text blocks based on reading order and font sizes; (2) Modelling each tree
node (or text block) independently by considering its contextual information
captured in node-centric subtree; (3) Modifying the original tree by taking
appropriate action on each tree node (Keep, Delete, or Move). This
construction-modelling-modification (CMM) process offers several benefits. It
eliminates the need for pairwise modelling of section headings as in previous
approaches, making document segmentation practically feasible. By incorporating
structured information, each section heading can leverage both local and
long-distance context relevant to itself. Experimental results show that our
approach outperforms the previous state-of-the-art baseline with a fraction of
running time. Our framework proves its scalability by effectively handling
documents of any length.
- Abstract(参考訳): 内容表(ToC)抽出は、文書を階層的に構造化する中心となる。
本稿では,2001年から2022年までの563社のESG年次報告を1,093件からなるESGDocという新しいデータセットを提案する。
これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。
これらの課題に対処するために,(1)読み順とフォントサイズに基づいてテキストブロックの初期ツリーを構築すること,(2)各ツリーノード(またはテキストブロック)をノード中心のサブツリーでキャプチャしたコンテキスト情報を考慮して独立にモデル化すること,(3)各ツリーノード(keep、delete、move)に適切なアクションを施して元のツリーを変更すること,の3つのステップからなるtoc抽出フレームワークを提案する。
この構成モデル修正(CMM)プロセスにはいくつかの利点がある。
文書セグメント化を現実的に実現可能にするため、従来のアプローチのようにセクションヘッダをペアでモデル化する必要がなくなる。
構造化された情報を導入することで、各セクションの見出しは、自分自身に関連するローカルと長距離の両方のコンテキストを活用することができる。
実験の結果,本手法は従来のベースラインよりも少ない実行時間で性能が向上することがわかった。
当社のフレームワークは、あらゆる長さのドキュメントを効果的に処理することで、そのスケーラビリティを証明します。
関連論文リスト
- Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - UniVIE: A Unified Label Space Approach to Visual Information Extraction
from Form-like Documents [11.761942458294136]
我々は,VIEを関係予測問題とみなし,異なるタスクのラベルを単一のラベル空間に統合する新たな視点を提案する。
この統一されたアプローチは、様々な関係型の定義を可能にし、フォームライクなドキュメントにおける階層的関係に効果的に取り組む。
我々は、VIE問題に包括的に対処する統一モデルUniVIEを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:02:36Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Multimodal Tree Decoder for Table of Contents Extraction in Document
Images [32.46909366312659]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-12-06T11:38:31Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。