論文の概要: General-Purpose OCR Paragraph Identification by Graph Convolution
Networks
- arxiv url: http://arxiv.org/abs/2101.12741v1
- Date: Fri, 29 Jan 2021 18:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 13:21:04.543210
- Title: General-Purpose OCR Paragraph Identification by Graph Convolution
Networks
- Title(参考訳): グラフ畳み込みネットワークによる汎用OCRパラグラフの同定
- Authors: Renshen Wang, Yasuhisa Fujii and Ashok C. Popat
- Abstract要約: OCRテキストボックスに適用した空間グラフ畳み込みネットワーク(GCN)による段落識別のための新しい手法を提案する。
行分割と行クラスタリングという2つのステップを行い、OCR結果の行から段落を抽出する。
GCNモデルは、合成トレーニングデータから実世界の画像への優れた一般化と、可変文書スタイルに対する優れた適応性を示す。
- 参考スコア(独自算出の注目度): 1.5960546024967326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paragraphs are an important class of document entities. We propose a new
approach for paragraph identification by spatial graph convolution networks
(GCN) applied on OCR text boxes. Two steps, namely line splitting and line
clustering, are performed to extract paragraphs from the lines in OCR results.
Each step uses a beta-skeleton graph constructed from bounding boxes, where the
graph edges provide efficient support for graph convolution operations. With
only pure layout input features, the GCN model size is 3~4 orders of magnitude
smaller compared to R-CNN based models, while achieving comparable or better
accuracies on PubLayNet and other datasets. Furthermore, the GCN models show
good generalization from synthetic training data to real-world images, and good
adaptivity for variable document styles.
- Abstract(参考訳): パラグラフはドキュメントエンティティの重要なクラスです。
OCRテキストボックスに適用した空間グラフ畳み込みネットワーク(GCN)による段落識別のための新しい手法を提案する。
行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。
各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。
純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3〜4桁小さく、PubLayNetや他のデータセットで同等以上の精度を達成しています。
さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。
関連論文リスト
- Scalable Graph Compressed Convolutions [68.85227170390864]
ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能手法を提案する。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
論文 参考訳(メタデータ) (2024-07-26T03:14:13Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Graph Convolutional Network For Semi-supervised Node Classification With Subgraph Sketching [0.27624021966289597]
本稿では,GLDGCNと呼ばれるグラフ学習型グラフ畳み込みニューラルネットワークを提案する。
半教師付きノード分類タスクにGLDGCNを適用する。
ベースライン手法と比較して,3つの引用ネットワークの分類精度が向上する。
論文 参考訳(メタデータ) (2024-04-19T09:08:12Z) - You do not have to train Graph Neural Networks at all on text-attributed graphs [25.044734252779975]
我々は、同じクラスからのテキストエンコーディングがしばしば線形部分空間に集約されるという観察に乗じて、線形GNNモデルであるTrainlessGNNを紹介した。
実験の結果、私たちのトレインレスモデルは、従来の訓練済みのモデルにマッチするか、超えられることがわかった。
論文 参考訳(メタデータ) (2024-04-17T02:52:11Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - ME-GCN: Multi-dimensional Edge-Embedded Graph Convolutional Networks for
Semi-supervised Text Classification [6.196387205547024]
本稿では,半教師付きテキスト分類のためのME-GCN (Multi-dimensional Edge-enhanced Graph Convolutional Networks)を提案する。
提案モデルでは,8つのベンチマークデータセット間で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-10T07:05:12Z) - A Variational Edge Partition Model for Supervised Graph Representation
Learning [51.30365677476971]
本稿では,重なり合うノード群間の相互作用を集約することで,観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。
それぞれのエッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。
エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:37:50Z) - SLGCN: Structure Learning Graph Convolutional Networks for Graphs under
Heterophily [5.619890178124606]
本稿では2つの側面から問題を緩和する構造学習グラフ畳み込みネットワーク(SLGCN)を提案する。
具体的には、全ての類似ノードから特徴表現を効率的に集約するために、アンカーを用いた効率的なスペクトルクラスタリング(ESC-ANCH)を設計する。
幅広いベンチマークデータセットの実験結果は、提案されたSLGCNが、最先端のGNNよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-05-28T13:00:38Z) - Locality Preserving Dense Graph Convolutional Networks with Graph
Context-Aware Node Representations [19.623379678611744]
グラフ畳み込みネットワーク(GCN)はグラフデータの表現学習に広く利用されている。
多くのグラフ分類アプリケーションにおいて、GCNベースのアプローチは従来の手法よりも優れている。
グラフコンテキスト対応ノード表現を用いた局所性保存型高密度GCNを提案する。
論文 参考訳(メタデータ) (2020-10-12T02:12:27Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。