論文の概要: Seg2Act: Global Context-aware Action Generation for Document Logical Structuring
- arxiv url: http://arxiv.org/abs/2410.06802v1
- Date: Wed, 9 Oct 2024 11:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:30:47.241559
- Title: Seg2Act: Global Context-aware Action Generation for Document Logical Structuring
- Title(参考訳): Seg2Act: 文書論理構造化のためのグローバルコンテキスト対応アクション生成
- Authors: Zichao Li, Shaojie He, Meng Liao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Yanxiong Lu, Xianpei Han, Le Sun,
- Abstract要約: 文書論理構造化のためのエンドツーエンドな生成手法であるSeg2Actを紹介する。
Seg2Actは、グローバルコンテキスト認識生成モデルを介してアクションシーケンスを反復的に生成し、そのグローバルコンテキストと現在の論理構造を同時に更新する。
ChCatExtとHierDocデータセットの実験は、教師付きおよび転送学習設定の両方において、Seg2Actの優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 45.55145491566147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document logical structuring aims to extract the underlying hierarchical structure of documents, which is crucial for document intelligence. Traditional approaches often fall short in handling the complexity and the variability of lengthy documents. To address these issues, we introduce Seg2Act, an end-to-end, generation-based method for document logical structuring, revisiting logical structure extraction as an action generation task. Specifically, given the text segments of a document, Seg2Act iteratively generates the action sequence via a global context-aware generative model, and simultaneously updates its global context and current logical structure based on the generated actions. Experiments on ChCatExt and HierDoc datasets demonstrate the superior performance of Seg2Act in both supervised and transfer learning settings.
- Abstract(参考訳): 文書論理構造は、文書の階層構造を抽出することを目的としており、これは文書のインテリジェンスにとって不可欠である。
従来のアプローチは、長いドキュメントの複雑さと可変性を扱うのに不足することが多い。
これらの問題に対処するため、我々は、論理構造抽出をアクション生成タスクとして再考する、エンドツーエンドで生成ベースの文書論理構造化手法であるSeg2Actを紹介した。
具体的には、文書のテキストセグメントが与えられた場合、Seg2Actは、グローバルコンテキスト認識生成モデルを介して、反復的にアクションシーケンスを生成し、生成されたアクションに基づいて、そのグローバルコンテキストと現在の論理構造を同時に更新する。
ChCatExtとHierDocデータセットの実験は、教師付きおよび転送学習設定の両方において、Seg2Actの優れたパフォーマンスを示している。
関連論文リスト
- Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z) - Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis [9.340346869932434]
本稿では,複数のサブタスクを同時に処理する木構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
本システムでは,2つの大規模文書レイアウト解析データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-22T12:00:37Z) - A Scalable Framework for Table of Contents Extraction from Complex ESG
Annual Reports [19.669390380593843]
2001年から2022年までの563社から1093社のESG年次レポートをまとめた新しいデータセットESGDocを提案する。
これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。
3つのステップからなる新しいToc抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T11:40:32Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。