論文の概要: Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts
- arxiv url: http://arxiv.org/abs/2412.03590v1
- Date: Wed, 27 Nov 2024 21:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:18:01.726113
- Title: Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts
- Title(参考訳): グラフベースの合成レイアウトによるドキュメントAIデータ生成の強化
- Authors: Amit Agarwal, Hitesh Patel, Priyaranjan Pattnayak, Srikant Panda, Bhargava Kumar, Tejaswini Kumar,
- Abstract要約: グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.8245350546263803
- License:
- Abstract: The development of robust Document AI models has been constrained by limited access to high-quality, labeled datasets, primarily due to data privacy concerns, scarcity, and the high cost of manual annotation. Traditional methods of synthetic data generation, such as text and image augmentation, have proven effective for increasing data diversity but often fail to capture the complex layout structures present in real world documents. This paper proposes a novel approach to synthetic document layout generation using Graph Neural Networks (GNNs). By representing document elements (e.g., text blocks, images, tables) as nodes in a graph and their spatial relationships as edges, GNNs are trained to generate realistic and diverse document layouts. This method leverages graph-based learning to ensure structural coherence and semantic consistency, addressing the limitations of traditional augmentation techniques. The proposed framework is evaluated on tasks such as document classification, named entity recognition (NER), and information extraction, demonstrating significant performance improvements. Furthermore, we address the computational challenges of GNN based synthetic data generation and propose solutions to mitigate domain adaptation issues between synthetic and real-world datasets. Our experimental results show that graph-augmented document layouts outperform existing augmentation techniques, offering a scalable and flexible solution for training Document AI models.
- Abstract(参考訳): 堅牢なDocument AIモデルの開発は、データプライバシの懸念、不足、手動アノテーションの高コストによる、高品質なラベル付きデータセットへのアクセス制限によって制限されている。
テキストや画像の増大といった従来の合成データ生成手法は、データの多様性を高めるのに有効であることが証明されているが、しばしば現実世界の文書に存在する複雑なレイアウト構造を捉えるのに失敗している。
本稿では,グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成手法を提案する。
文書要素(例えば、テキストブロック、画像、テーブル)をグラフのノードとして表現し、それらの空間的関係をエッジとして表現することにより、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
この手法はグラフに基づく学習を利用して構造的一貫性と意味的一貫性を確保し、従来の拡張技法の限界に対処する。
提案手法は,文書分類,名前付きエンティティ認識(NER),情報抽出などのタスクで評価され,大幅な性能向上を示す。
さらに、GNNベースの合成データ生成の計算課題に対処し、合成データセットと実世界のデータセット間のドメイン適応問題を緩和するソリューションを提案する。
実験結果から,グラフ拡張ドキュメントレイアウトは既存の拡張テクニックよりも優れており,ドキュメントAIモデルをトレーニングするためのスケーラブルで柔軟なソリューションを提供する。
関連論文リスト
- HyperQuery: Beyond Binary Link Prediction [0.7100520098029438]
ノードレベルのクラスタリングを用いた新しい特徴抽出手法を導入し,ノードレベルのラベルからのデータの統合によってシステム性能が向上することを示す。
我々の自己教師型アプローチは、いくつかのハイパーエッジ予測と知識ハイパーグラフ補完ベンチマークに基づいて、アートベースラインの状態を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-13T22:46:24Z) - TANGNN: a Concise, Scalable and Effective Graph Neural Networks with Top-m Attention Mechanism for Graph Representation Learning [7.879217146851148]
本稿では,Top-mアテンション機構アグリゲーションコンポーネントと近傍アグリゲーションコンポーネントを統合した,革新的なグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
提案手法の有効性を評価するため,提案手法をGNN分野において未探索の新たな課題である引用感情予測に適用した。
論文 参考訳(メタデータ) (2024-11-23T05:31:25Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - Meta Propagation Networks for Graph Few-shot Semi-supervised Learning [39.96930762034581]
本稿では,この問題を解決するために,メタ学習アルゴリズムを用いた新しいネットワークアーキテクチャを提案する。
基本的に,我々のMeta-PNフレームワークは,メタ学習ラベルの伝搬戦略を用いて,未ラベルノード上の高品質な擬似ラベルを推論する。
我々のアプローチは、様々なベンチマークデータセットの既存の技術と比較して、容易で実質的なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2021-12-18T00:11:56Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。