論文の概要: General-Purpose OCR Paragraph Identification by Graph Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2101.12741v2
- Date: Mon, 1 Feb 2021 19:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 13:29:22.901388
- Title: General-Purpose OCR Paragraph Identification by Graph Convolutional
Neural Networks
- Title(参考訳): グラフ畳み込みニューラルネットワークによる汎用OCRパラグラフの同定
- Authors: Renshen Wang, Yasuhisa Fujii and Ashok C. Popat
- Abstract要約: OCRテキストボックスに適用した空間グラフ畳み込みニューラルネットワーク(GCN)による段落識別のための新しい手法を提案する。
行分割と行クラスタリングという2つのステップを行い、OCR結果の行から段落を抽出する。
GCNモデルは、合成トレーニングデータから実世界の画像への優れた一般化と、可変文書スタイルに対する優れた適応性を示す。
- 参考スコア(独自算出の注目度): 1.5960546024967326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paragraphs are an important class of document entities. We propose a new
approach for paragraph identification by spatial graph convolutional neural
networks (GCN) applied on OCR text boxes. Two steps, namely line splitting and
line clustering, are performed to extract paragraphs from the lines in OCR
results. Each step uses a beta-skeleton graph constructed from bounding boxes,
where the graph edges provide efficient support for graph convolution
operations. With only pure layout input features, the GCN model size is 3~4
orders of magnitude smaller compared to R-CNN based models, while achieving
comparable or better accuracies on PubLayNet and other datasets. Furthermore,
the GCN models show good generalization from synthetic training data to
real-world images, and good adaptivity for variable document styles.
- Abstract(参考訳): パラグラフはドキュメントエンティティの重要なクラスです。
OCRテキストボックスに適用した空間グラフ畳み込みニューラルネットワーク(GCN)による段落識別のための新しい手法を提案する。
行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。
各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。
純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3〜4桁小さく、PubLayNetや他のデータセットで同等以上の精度を達成しています。
さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。
関連論文リスト
- EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - ME-GCN: Multi-dimensional Edge-Embedded Graph Convolutional Networks for
Semi-supervised Text Classification [6.196387205547024]
本稿では,半教師付きテキスト分類のためのME-GCN (Multi-dimensional Edge-enhanced Graph Convolutional Networks)を提案する。
提案モデルでは,8つのベンチマークデータセット間で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-10T07:05:12Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - A Variational Edge Partition Model for Supervised Graph Representation
Learning [51.30365677476971]
本稿では,重なり合うノード群間の相互作用を集約することで,観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。
それぞれのエッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。
エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:37:50Z) - TextRGNN: Residual Graph Neural Networks for Text Classification [13.912147013558846]
TextRGNNは改良されたGNN構造であり、畳み込みネットワークの深さを深くする残差接続を導入している。
我々の構造はより広いノード受容場を得ることができ、ノード特徴の過度な平滑化を効果的に抑制できる。
コーパスレベルであれテキストレベルであれ、分類精度を大幅に向上させ、幅広いテキスト分類データセット上でSOTA性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-30T13:48:58Z) - Data Augmentation for Graph Convolutional Network on Semi-Supervised
Classification [6.619370466850894]
グラフ畳み込みネットワーク(GCN)におけるグラフデータ拡張の問題について検討する。
具体的には、元の特徴に基づいてコサイン類似性に基づくクロスオペレーションを行い、新しいノード属性を含む新しいグラフ機能を作成する。
また,これらのGCNによって符号化された隠れノード埋め込みを最終ノード埋め込みに重み付けした注意統合モデルを提案する。
論文 参考訳(メタデータ) (2021-06-16T15:13:51Z) - SLGCN: Structure Learning Graph Convolutional Networks for Graphs under
Heterophily [5.619890178124606]
本稿では2つの側面から問題を緩和する構造学習グラフ畳み込みネットワーク(SLGCN)を提案する。
具体的には、全ての類似ノードから特徴表現を効率的に集約するために、アンカーを用いた効率的なスペクトルクラスタリング(ESC-ANCH)を設計する。
幅広いベンチマークデータセットの実験結果は、提案されたSLGCNが、最先端のGNNよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-05-28T13:00:38Z) - Locality Preserving Dense Graph Convolutional Networks with Graph
Context-Aware Node Representations [19.623379678611744]
グラフ畳み込みネットワーク(GCN)はグラフデータの表現学習に広く利用されている。
多くのグラフ分類アプリケーションにおいて、GCNベースのアプローチは従来の手法よりも優れている。
グラフコンテキスト対応ノード表現を用いた局所性保存型高密度GCNを提案する。
論文 参考訳(メタデータ) (2020-10-12T02:12:27Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。