論文の概要: Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs
- arxiv url: http://arxiv.org/abs/2505.14699v1
- Date: Mon, 12 May 2025 10:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.626781
- Title: Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs
- Title(参考訳): 公務における文書レイアウト分析のためのグラフニューラルネットワークのベンチマーク
- Authors: Miguel Lopez-Duran, Julian Fierrez, Aythami Morales, Ruben Tolosana, Oscar Delgado-Mohatar, Alvaro Ortigosa,
- Abstract要約: 我々は,デジタルネイティブ文書からテキストブロックの詳細なレイアウト分類を行うために,グラフニューラルネットワーク(GNN)アーキテクチャをベンチマークした。
両ブランチ構成のk-closest-neighborグラフ上でグラフSAGEを動作させることで,クラスごとの最大精度と全体的な精度が得られることを示す。
- 参考スコア(独自算出の注目度): 12.745520645025808
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The automatic analysis of document layouts in digital-born PDF documents remains a challenging problem due to the heterogeneous arrangement of textual and nontextual elements and the imprecision of the textual metadata in the Portable Document Format. In this work, we benchmark Graph Neural Network (GNN) architectures for the task of fine-grained layout classification of text blocks from digital native documents. We introduce two graph construction structures: a k-closest-neighbor graph and a fully connected graph, and generate node features via pre-trained text and vision models, thus avoiding manual feature engineering. Three experimental frameworks are evaluated: single-modality (text or visual), concatenated multimodal, and dual-branch multimodal. We evaluated four foundational GNN models and compared them with the baseline. Our experiments are specifically conducted on a rich dataset of public affairs documents that includes more than 20 sources (e.g., regional and national-level official gazettes), 37K PDF documents, with 441K pages in total. Our results demonstrate that GraphSAGE operating on the k-closest-neighbor graph in a dual-branch configuration achieves the highest per-class and overall accuracy, outperforming the baseline in some sources. These findings confirm the importance of local layout relationships and multimodal fusion exploited through GNNs for the analysis of native digital document layouts.
- Abstract(参考訳): デジタル生まれのPDF文書における文書レイアウトの自動解析は、テキストおよび非テキスト要素の不均一な配置と、ポータブル文書フォーマットにおけるテキストメタデータの不正確さのため、依然として困難な問題である。
本研究では,デジタルネイティブ文書からテキストブロックの詳細なレイアウト分類を行うために,グラフニューラルネットワーク(GNN)アーキテクチャをベンチマークする。
我々は,k-closest-neighborグラフと完全連結グラフという2つのグラフ構造を導入し,事前訓練されたテキストとビジョンモデルを用いてノード特徴を生成する。
3つの実験的なフレームワークが評価されている: 単一モダリティ(テキストまたはビジュアル)、連結マルチモダリティ、二重ブランチマルチモダリティ。
基礎となる4つのGNNモデルを評価し,ベースラインと比較した。
本実験は,20以上の資料(地域および国家レベルの公文書),37K PDF 文書,合計441K ページを含む,多種多様な公務文書のデータセットを用いて実施した。
両ブランチ構成でk-closest-neighborグラフで動作するGraphSAGEは、クラスごとの最高精度と全体的な精度を達成し、いくつかのソースにおいてベースラインを上回っていることを示す。
これらの結果は, ネイティブデジタル文書レイアウト解析において, 局所的レイアウト関係とGNNによるマルチモーダル融合の重要性を裏付けるものである。
関連論文リスト
- Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T21:15:02Z) - Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Article Classification with Graph Neural Networks and Multigraphs [0.12499537119440243]
単純なグラフニューラルネットワーク(GNN)パイプラインを多グラフ表現で拡張することにより,記事分類の性能を向上させる手法を提案する。
完全に教師されたトランスダクティブノード分類実験は、Open Graph Benchmark OGBN-arXivデータセットとPubMed糖尿病データセットで実施されている。
その結果、マルチグラフはデフォルトグラフと比較して、様々なGNNモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-09-20T14:18:04Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。