# (参考訳) グラフ畳み込みネットワークによる汎用OCRパラグラフの同定 [全文訳有]

General-Purpose OCR Paragraph Identification by Graph Convolution Networks ( http://arxiv.org/abs/2101.12741v1 )

ライセンス: CC BY 4.0
Renshen Wang, Yasuhisa Fujii and Ashok C. Popat(参考訳) パラグラフはドキュメントエンティティの重要なクラスです。 OCRテキストボックスに適用した空間グラフ畳み込みネットワーク(GCN)による段落識別のための新しい手法を提案する。 行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。 各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。 純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3〜4桁小さく、PubLayNetや他のデータセットで同等以上の精度を達成しています。 さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。

Paragraphs are an important class of document entities. We propose a new approach for paragraph identification by spatial graph convolution networks (GCN) applied on OCR text boxes. Two steps, namely line splitting and line clustering, are performed to extract paragraphs from the lines in OCR results. Each step uses a beta-skeleton graph constructed from bounding boxes, where the graph edges provide efficient support for graph convolution operations. With only pure layout input features, the GCN model size is 3~4 orders of magnitude smaller compared to R-CNN based models, while achieving comparable or better accuracies on PubLayNet and other datasets. Furthermore, the GCN models show good generalization from synthetic training data to real-world images, and good adaptivity for variable document styles.
公開日: Fri, 29 Jan 2021 18:54:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
This work has been submitted to the IEEE for possible publication. この作品は、可能な出版のためにIEEEに提出されました。 0.55
Copyright may be transferred without notice, after which this version may no longer be accessible. 著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。 0.67
1 1 2 0 2 b e F 1 1 1 2 0 2 b e F 1 0.85
] V C . ] V C。 0.79
s c [ 2 v 1 4 7 2 1 sc [ 2 v 1 4 7 2 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
General-Purpose OCR Paragraph Identification 汎用OCRパラグラフの同定 0.65
by Graph Convolutional Neural Networks グラフ畳み込みニューラルネットワークによって 0.78
Renshen Wang, Yasuhisa Fujii and Ashok C. Popat 王蓮シェン、藤井康久、ashok c. popat 0.62
Abstract—Paragraphs are an important class of document entities. 概要 — パラグラフはドキュメントエンティティの重要なクラスです。 0.69
We propose a new approach for paragraph identification by spatial graph convolutional neural networks (GCN) applied on OCR text boxes. OCRテキストボックスに適用した空間グラフ畳み込みニューラルネットワーク(GCN)による段落識別のための新しい手法を提案する。 0.85
Two steps, namely line splitting and line clustering, are performed to extract paragraphs from the lines in OCR results. 行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。 0.66
Each step uses a β-skeleton graph constructed from bounding boxes, where the graph edges provide efficient support for graph convolution operations. 各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。 0.68
With only pure layout input features, the GCN model size is 3∼4 orders of magnitude smaller compared to R-CNN based models, while achieving comparable or better accuracies on PubLayNet and other datasets. 純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3/4桁小さくなり、PubLayNetや他のデータセットで同等以上の精度を達成できます。 0.68
Furthermore, the GCN models show good generalization from synthetic training data to real-world images, and good adaptivity for variable document styles. さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。 0.68
Index Terms—Optical character recognition, document layout, graph convolutional neural network. インデックス項 — 光学的文字認識、ドキュメントレイアウト、グラフ畳み込みニューラルネットワーク。 0.75
! 2 1 INTRODUCTION D OCUMENT image understanding is a task to recognize, ! 2 1 紹介 D OCUMENTイメージ理解は認識するタスクです。 0.76
structure, and understand the contents of document images, and is a key technology to digitally process and consume such document images. 文書画像の内容を構造化し、理解し、そのような文書画像をデジタル処理し、消費する鍵となる技術である。 0.79
If we regard any images containing structured text as document images, they are ubiquitous and can be found in numerous applications. 構造化テキストを含む画像を文書画像とみなすと、それらはユビキタスであり、多くのアプリケーションで見られる。 0.73
Document image understanding enables the conversion of such documents into a digital format with rich structure and semantic information and makes them available for subsequent information tasks. ドキュメントイメージ理解は、これらの文書をリッチな構造と意味情報を持つデジタルフォーマットに変換し、その後の情報タスクで利用可能にする。 0.77
A document can be represented by its semantic structure and physical structure [1]. 文書は、その意味構造と物理的構造[1]で表すことができる。 0.85
The task to recover the semantic structure is called logical layout analysis [2] or semantic structure extraction [3] while the task to recover the physical structure is called geometric (physical, or structural) layout analysis [2]. 意味構造を回復するタスクは論理レイアウト解析[2]または意味構造抽出[3]と呼ばれ、物理構造を回復するタスクは幾何学的(物理的、または構造的)レイアウト分析[2]と呼ばれる。 0.86
These tasks are critical subproblems of document image understanding. これらのタスクは文書画像理解の重要な部分問題である。 0.65
A paragraph is a semantic unit of writing consisting of one or more sentences that usually develops one main idea. 段落は、通常1つの主要なアイデアを開発する1つ以上の文からなる文章の意味単位です。 0.72
Paragraphs are basic constituents of semantic structure and thus paragraph boundary estimation (or paragraph estimation, for short) is an important building block of logical layout analysis. パラグラフは意味構造の基本的構成要素であり,段落境界推定(略して段落推定)は論理的レイアウト解析の重要な構成要素である。 0.80
Moreover, paragraphs are often appropriate as processing units for various downstream tasks such as translation and information extraction because they are selfcontained and have rich semantic information. さらに、段落は自己完結し、豊かな意味情報を持つため、翻訳や情報抽出などの下流タスクの処理単位として適していることが多い。 0.64
Therefore, developing a generic paragraph estimation algorithm is of great interest by itself. したがって、汎用的な段落推定アルゴリズムの開発は、それ自体が大きな関心を寄せている。 0.57
Paragraphs are usually rendered in a geometric layout structure according to broadly accepted typographical rules. 段落は通常、広く受け入れられた活字規則に従って幾何学的なレイアウト構造で表現される。 0.67
For example, a paragraph can be rendered as a series of text lines that 例えば、段落は一連のテキスト行として表現することができる。 0.75
• are placed with uniform vertical spacing between adja- •Adja間の垂直方向の均一な間隔で配置する 0.73
cent lines; • start with a line where one of the following is true: セントライン; • 次の1つが真である行から始めます。 0.61
• R. Wang, Y. Fujii and A. C. Popat are with Google Research, Mountain R. Wang、Y. Fujii、A.C. PopatがGoogle Research、Mountainと提携 0.82
View, CA. カリフォルニア州ビュー。 0.62
Manuscript received January 29, 2021. 2021年1月29日発行。 0.64
Fig. 1. Examples of paragraphs in printed text. フィギュア。 1. 印刷テキスト中の段落の例。 0.68
Paragraphs may have complex shapes when wrapped around figures or other types of document entities. パラグラフは、図形やその他の種類のドキュメントエンティティにラップされるときに複雑な形状を持つ。 0.57
a. The line is indented. A. ラインはインデントされています。 0.65
(An indented paragraph.) (インデントされた段落) 0.72
b. The line starts with a bullet symbol or number, with all the subsequent lines indented to be left-justified, flush with the first. bだ ラインは弾丸のシンボルまたは番号から始まり、続く全てのラインは左に修正され、最初のラインに流れ込むようにインデントされる。 0.72
(A list item.) c. The vertical spacing above the first line is significantly larger than the uniform spacing between subsequent lines. (リスト項目) c. 最初のラインの上の縦の間隔は次のライン間の均一間隔よりかなり大きいです。 0.62
(A block paragraph.) As such, there are usually clear visual cues to identify paragraphs1. (ブロック段落) そのため、通常、段落1を識別するための明確な視覚的手がかりがあります。 0.51
Nevertheless, the task of estimating paragraphs often remains non-trivial as shown in Fig. それでも、図に示すように、段落を推定する作業はしばしば非自明のままである。 0.52
1. Previous studies have attempted to develop a paragraph estimation method by defining handcrafted rules based on careful observations [4], [5], [6], [7] or by learning an object detection model to identify the regions of paragraphs from an image [3], [8]. 1. 従来,手作りルールを注意深い観察 [4], [5], [6], [7] に基づいて定義したり, 画像 [3], [8] から段落の領域を識別する対象検出モデルを学ぶことによって, 段落推定手法の開発を試みた。 0.82
For the former approaches, it is usually 前者のアプローチの場合、通常です。 0.72
1. A semantic paragraph can span over multiple text columns or pages. 1. セマンティックな段落は複数のテキスト列やページにまたがることができる。 0.78
In this paper, we only look for physical paragraphs where lines of contiguous indices are always physically proximate. 本稿では,連続するインデックスの行が常に物理的に近距離である物理段落のみを求める。 0.68
Moreover, we regard stand-alone text spans such as titles and headings as single-line paragraphs. さらに、タイトルや見出しなどのスタンドアロンのテキストスパンをシングルラインの段落と見なします。 0.63
challenging to define a robust set of heuristics even for a limited domain, and hence machine-learning-bas ed solutions are generally preferable. 限られた領域でも堅牢なヒューリスティックセットを定義することに挑戦し、したがって機械学習ベースのソリューションが一般的に望ましい。 0.58
The latter approaches tend to have difficulty dealing with diverse aspect ratios and text shapes, and the wide range of degradations observed in real-world applications such as image skews and perspective distortions. 後者のアプローチは、さまざまなアスペクト比やテキスト形状を扱うのが困難になりがちであり、画像スキューやパースペクティブ歪みなどの現実世界のアプリケーションで観察される幅広い劣化がある。 0.70
In this paper, we propose to apply graph convolutional neural networks (GCNs) in a post-processing step of an optical character recognition (OCR) system for paragraph estimation. 本稿では,グラフ畳み込みニューラルネットワーク(GCN)を光学的文字認識(OCR)システムの後処理工程に適用し,段落推定を行うことを提案する。 0.88
Modern OCR engines can detect and recognize texts with a very high recall for documents in a variety of conditions. 現代のOCRエンジンは、様々な条件下で文書を非常に高いリコールでテキストを検出し、認識することができる。 0.70
Indeed, as will be shown in the experiments, our generic OCR system can detect and recognize texts with a higher recall than a specialized image-based paragraph detector, indicating little risk of missing correct paragraph boundaries by restricting to the possibilities generated by the OCR engine. 実際,本システムでは,OCRエンジンが生成する可能性に制限を加えることで,特定の画像に基づく段落検出装置よりも高いリコールでテキストを検出し,認識することができる。 0.63
That motivates us to employ the postprocessing strategy rather than a pre-processing or an entangled approach. これは、前処理や絡み合ったアプローチではなく、後処理戦略を採用する動機となります。 0.56
Recent advancements in graph neural (convolutional) networks [9], [10] have enabled deep learning on non-Euclidian data. グラフニューラル(畳み込み)ネットワーク [9], [10] の最近の進歩により、非ユークリッドデータに対する深層学習が可能となった。 0.77
GCNs can learn spatial relationships among entities combining information from multiple sources and provide a natural way to learn the non-linear mapping from OCR results to paragraphs. GCNは複数の情報源からの情報を組み合わせたエンティティ間の空間的関係を学習し、OCR結果から段落への非線形マッピングを自然に学習する方法を提供する。
訳抜け防止モード: GCNは複数の情報源からの情報を組み合わせるエンティティ間の空間関係を学習できる 自然な方法で OCR結果からパラグラフへの非線形マッピングを学ぶ。
More specifically, we design two classifiers based on GCNs — one for line splitting and one for line clustering. 具体的には、GCNに基づいて2つの分類器を設計します。1つはライン分割用、もう1つはラインクラスタリング用です。 0.55
A word graph is constructed for the first stage and a line graph is constructed for the second stage. 第1段には単語グラフが構築され、第2段には線グラフが構築される。 0.84
Both graphs are constructed based on the β-skeleton algorithm [11] that produces a graph with good connectivity and sparsity. 両グラフは、接続性と疎性に優れたグラフを生成するβ-スケルトンアルゴリズム [11] に基づいて構築される。 0.78
To fully utilize the models’ capability, it is desirable to have a diverse set of document styles in the training data. モデルの能力を十分に活用するためには、トレーニングデータにさまざまなドキュメントスタイルのセットを持つことが望ましい。 0.77
We create synthetic data sets from web pages where the page styles are randomly modified in the web scraping engine. webスクレイピングエンジンでページスタイルがランダムに変更されたwebページから合成データセットを作成する。 0.71
By leveraging open web sites like Wikipedia [12] for source material to render in randomized styles, we have access to practically unlimited document data. ソース資料にウィキペディア[12]のようなオープンなWebサイトを活用してランダムなスタイルでレンダリングすることで、事実上無制限のドキュメントデータにアクセスできます。 0.65
We evaluate the 2-step models on both the PubLayNet [8] and our own datasets. PubLayNet [8]と当社のデータセットの両方で、2段階モデルを評価します。 0.76
We show that GCN based models can be small and efficient by taking OCR produced bounding boxes as input, and are also capable of generating highly accurate results. 我々は,OCR生成したバウンディングボックスを入力とし,GCNをベースとしたモデルが小さく,効率的であることを示し,高精度な結果が得られることを示した。 0.66
Moreover, with synthesized training data from a browser-based rendering engine, these models can be a step towards a reverse rendering engine that recovers comprehensive layout structure from document images. さらに、ブラウザベースのレンダリングエンジンから合成されたトレーニングデータにより、これらのモデルは、ドキュメントイメージから包括的なレイアウト構造を復元するリバースレンダリングエンジンへのステップとなる。 0.73
This paper is organized as follows: Section 2 reviews related work. 本論文は以下のとおり構成されている。 0.43
Section 3 presents our proposed method, where the graph construction method and the details of each step of the algorithms are described. 第3節では,提案手法について述べる。グラフ構築法とアルゴリズムの各ステップの詳細について述べる。 0.75
Section 4 explains training data generation methods with web scraping. セクション4では、Webスクレイピングによるトレーニングデータ生成方法を説明します。 0.56
Experimental setups and results are given in Section 5. 実験的な設定および結果はセクション5で与えられます。 0.76
Section 6 concludes the paper with suggestions for future work. 第6節は、将来の作業の提案で論文を締めくくる。 0.64
2 RELATED WORK OCR layout analysis (”layout” for short) comprises a large variety of problems that have been studied from different aspects. 2 RELATED WORK OCR layout analysis (略して“layout”) は、様々な側面から研究されてきた様々な問題を含む。 0.82
There is pre-recognition layout like [13] to find text lines as the input of recognition, and post-recognition layout like [14] to find higher level entities based on OCR 認識の入力としてテキスト線を見つける[13]のような事前認識レイアウトと,OCRに基づく高レベルエンティティを見つける[14]のような認識後のレイアウトがある。 0.77
3 Fig. 2. 3 フィギュア。 2. 0.71
Example of multiple short paragraphs densely packed and rotated into a non axis-aligned direction. 複数の短い段落の例は密充填され、非軸方向へと回転する。 0.65
The right side shows the region proposal boxes for object detection models. 右側は、オブジェクト検出モデルの領域提案ボックスを示している。 0.79
recognition results. We list selected studies that are most relevant to our problem in the following subsections. 認識結果。 我々は、次のセクションで私たちの問題に最も関連する選択された研究をリストします。 0.65
2.1 Geometric and Rule-based Approaches 2.1 幾何学とルールに基づくアプローチ 0.61
Multi-column text, often with small column gaps, needs to be first identified before paragraphs. 複数カラムのテキストは、しばしば小さなカラムギャップを持つが、段落の前に最初に識別する必要がある。 0.63
Early studies have proposed geometric methods [6], [15] and rule-based methods [4], [5], [7]. 初期の研究では幾何学的手法 [6], [15],規則に基づく方法 [4], [5], [7] が提案されている。 0.87
Both categories have algorithms to find column gaps by searching whitespace [15] or text alignment [7]. どちらのカテゴリにも空白[15]とテキストアライメント[7]を検索することでカラムギャップを見つけるアルゴリズムがある。 0.73
Limitations of these approaches include susceptibility to input noise and false positive column boundaries, especially with monospace font families. これらのアプローチの制限には、入力ノイズの影響を受けやすく、特にモノスペースフォントファミリーでは偽陽性カラム境界が含まれる。 0.66
Our production2 layout analyzer has been using a simpler rule-based heuristic algorithm which splits lines at white spaces that are significantly larger than others. Production2レイアウトアナライザは、より単純なルールベースのヒューリスティックアルゴリズムを使用しており、他よりも大きな白い空間で線を分割しています。 0.63
This simplification gives it a performance (computational and memory cost) advantage, but also hampers its capability of handling dense text columns. この単純化は、パフォーマンス(計算コストとメモリコスト)の利点をもたらすが、密集したテキスト列を扱う能力を阻害する。 0.65
2.2 Image Based Detection 2.2 画像に基づく検出 0.71
The PubLayNet paper [8] provides a large dataset for multiple types of document entities, as well as two object detection models F-RCNN [16] and M-RCNN [17] trained to detect these entities. PubLayNetの論文[8]は、複数のタイプのドキュメントエンティティのための大規模なデータセット、およびこれらのエンティティを検出するために訓練された2つのオブジェクト検出モデルF-RCNN [16]とM-RCNN [17]を提供します。 0.68
Both show good metrics in evaluations, but also with some disadvantages on detecting paragraphs: • Cost: Object detection models are typically large in size and expensive in computation. どちらも評価に優れた指標を示すが、段落の検出にはいくつかの欠点がある。 • コスト: オブジェクト検出モデルは、通常、サイズが大きく、計算に高価である。 0.69
When used together with an OCR engine to retrieve text paragraphs, it seems wasteful to bypass the OCR results and attempt to detect paragraphs independently. OCRエンジンと組み合わせてテキストの段落を検索する場合、OCRの結果をバイパスし、段落を独立して検出しようとすることは無駄に思える。 0.66
• Quality: Paragraph bounding boxes may have high aspect ratios and are sometimes tightly packed, making it difficult for Faster R-CNN detection. • 品質: パラグラフバウンディングボックスは高アスペクト比を持ち、時には密封されているため、より高速なR-CNN検出が困難である。
訳抜け防止モード: •品質 : 段落境界ボックスはアスペクト比が高いかもしれない ぎっしり詰まったりします 高速r-cnn検出を困難にする。
In Fig. 2, several short paragraphs are printed with dense text and rotated by 45 degrees. 図1。 2段落の短い段落は、濃密なテキストで印刷され、45度回転する。 0.62
The region proposals required to detect all the paragraphs are highly overlapped, so some detections will be dropped by non-maximum suppression (NMS). 全ての段落を検出するのに必要な領域提案は極めて重複しているため、いくつかの検出はNMS(Non-maximum suppress)によって取り下げられる。 0.68
Rotational R-CNN models [18] can mitigate this issue by inclined NMS, but further increase the computational cost while still facing a more difficult task with rotated or warped inputs. 回転 r-cnn モデル [18] は nms を傾斜させることでこの問題を緩和するが、回転または反動入力でさらに難しい課題に直面しながら計算コストをさらに高めることができる。 0.71
2. In current use in products and services at the time of this writing. 2. この執筆時の製品およびサービスにおける現在の使用において。 0.87
2.3 Page Segmentation Page segmentation models [3], [19], [20] classify every part of the image to certain types of objects such as text, table, image and background. 2.3 Page Segmentation Pageセグメンテーションモデル [3], [19], [20] は、画像のすべての部分をテキスト、テーブル、画像、背景などの特定の種類のオブジェクトに分類する。 0.84
Sometimes the shapes of paragraphs can be revealed by the “text” part of the segmentation. 時々,段落の形状は,区分の“テキスト”部分によって明らかにされる。 0.74
However, when text is dense and paragraphs are indentation based without variation in line spacings, individual paragraphs cannot be easily extracted from large connected text regions. しかし、テキストが密度が高く、段落が線間隔にばらつきのないインデントの場合、個々の段落は大きな連結テキスト領域から簡単に抽出することはできません。 0.71
On the other hand, when text is sparse and appears as a lot of separate small components, paragraphs are not obvious in the segmentation result either. 一方、テキストがばらばらで、多くの別々の小さなコンポーネントとして現れる場合、セグメンテーションの結果において段落も明確ではない。 0.76
2.4 Graph Neural Network for Table Detection A graph neural network approach is proposed in [14] to detect tables in invoice documents. 2.4 Graph Neural Network for Table Detection[14]では,請求書のテーブルを検出するグラフニューラルネットワークアプローチが提案されている。 0.82
It shows that tabular structures can be detected based purely on structural information by graph neural networks. グラフニューラルネットワークによる構造情報に基づいて、表構造を純粋に検出できることが示される。 0.78
Limitations of this approach include graph construction and graph representation. このアプローチの限界はグラフの構成とグラフ表現である。 0.80
First, the visibility graph is built by only connecting pairs of pre-defined entities that are vertically or horizontally visible, which requires the input image free of skews and distortions. まず、可視性グラフは、垂直または水平に可視である事前定義されたエンティティのペアを接続するだけで構築され、スキューや歪みのない入力画像が必要です。 0.69
Second, the adjacency matrix learned by the GNN is O(n2) in size and hence inefficient for large inputs. 第二に、GNNによって学習される隣接行列は O(n2) サイズであり、従って大きな入力に対して非効率である。 0.62
A general-purpose post-OCR model will need to overcome these limitations to accommodate all types of input images and achieve high computational efficiency. 汎用的なポストOCRモデルは、全ての種類の入力画像に対応し、高い計算効率を達成するためにこれらの制限を克服する必要がある。
訳抜け防止モード: 汎用 - 目的 - OCR モデルが必要だ これらの制限を克服し あらゆる種類の入力画像に対応し、高い計算効率を実現する。
3 PARAGRAPH ESTIMATION WITH GRAPH CONVOLUTIONAL NEURAL NETWORKS A paragraph consists of a set of text lines, which are usually produced in the output of OCR systems [13], [21]. グラフ畳み込みニューラルネットワークを用いた3段落推定 a段落は、通常ocrシステム[13],[21]の出力で生成される一連のテキストラインで構成される。 0.68
If text lines are given by OCR systems, we can consider a bottomup approach to cluster text lines into paragraphs for the paragraph estimation task. テキスト行がOCRシステムによって与えられる場合、段落推定タスクの段落にテキスト行をクラスタ化するためのボトムアップアプローチを考えることができる。 0.70
The detected lines provide rudimentary layout information but may not match the true text lines. 検出された線は初歩的なレイアウト情報を提供するが、真のテキスト線と一致しない可能性がある。 0.49
For example, in Fig. 3, the lower section of the page consists of two text columns placed closely to each other. 例えば、図で。 3. ページの下部は2つのテキスト列で構成され、互いに密に配置されている。 0.64
The line detector might be confused by the tiny spacing and find wrong lines spanning both columns. ライン検出器は、小さな間隔で混乱し、両列にまたがる間違った線を見つけるかもしれない。 0.67
These lines need to be split in the middle before being clustered into paragraphs. これらの線は、段落にまとめられる前に中央に分割する必要がある。 0.70
Line splitting and clustering are non-trivial tasks for general-purpose paragraph estimation – the input images can be skewed or warped, and the layout styles can vary among different types of documents, e.g. 行分割とクラスタリングは汎用的な段落推定の非自明なタスクであり、入力画像は歪んだり歪んだりすることができ、レイアウトスタイルは文書の種類によって異なる。 0.75
newspapers, books, signs, web pages, handwritten letters, etc. 新聞、本、印、Webページ、手書きの手紙、等。 0.65
Even though the concept of paragraph is mostly consistent across all document categories, the appearance of a paragraph can differ by many factors such as word spacing, line spacing, indentation, text flowing around figures, etc. 段落の概念は、ほぼすべての文書のカテゴリで一致しているが、段落の出現は、単語間隔、線間隔、インデンテーション、数字のまわりを流れるテキストなど、多くの要因によって異なることがある。 0.69
Such variations make it difficult, if not impossible, to have a straightforward algorithm that identifies all the paragraphs. このようなバリエーションは、不可能であっても、すべての段落を識別する簡単なアルゴリズムを持つことを困難にします。 0.63
In order to address erroneous line detection and solve the non-trivial split and clustering problem, we design a paragraph identification method as a 2-step process after the main OCR engine produces line and word bounding boxes. 誤行検出と非自明な分割とクラスタリングの問題を解決するために、メインOCRエンジンが行と単語バウンディングボックスを生成した後、2ステッププロセスとして段落識別方法を設計します。 0.80
Both steps use a graph convolutional neural network (GCN) that takes input features from bounding boxes in どちらのステップも、境界ボックスから入力機能を取るグラフ畳み込みニューラルネットワーク(GCN)を使用します。 0.72
4 Fig. 3. 4 フィギュア。 3. 0.71
Example of a double-column document image and its paragraphs. 二重カラム文書画像とその段落の例。 0.74
The left side shows all the lines found by an OCR text line detector, and the right side shows the paragraphs formed by clustered text lines within each column. 左側はocrテキストライン検出器によって検出された全行、右側は各カラム内の集合したテキストラインによって形成された段落を示す。 0.80
Fig. 4. Comparison among different types of graphs constructed on an example set of boxes. フィギュア。 4. 箱の例集合上に構築された異なる種類のグラフの比較。 0.71
the OCR result, together with a β-skeleton graph [11] constructed from these boxes. OCRの結果は、これらのボックスから構築されたβ-スケルトングラフ[11]とともに。 0.66
Neither the original image nor text transcriptions are included in the input, so the models are small, fast, and entirely focused on the layout structure. オリジナルの画像もテキストの書き起こしも入力には含まれていないため、モデルは小さく、高速で、レイアウト構造に完全に焦点が当てられている。 0.68
• Step 1: Line splitting. • ステップ1: ライン分割。 0.77
Raw text lines from OCR line detectors may cross multiple columns, and thus need to be split into shorter lines. OCR線検出器からのテキスト線は複数の列を横切る可能性があるため、短い線に分割する必要がある。 0.75
A GCN node classifier predicts splitting points in lines. GCNノード分類器は、分岐点を線で予測する。 0.68
• Step 2: Line clustering. • ステップ2: ラインクラスタリング。 0.71
After step 1 produces refined lines, they are clustered into paragraphs. ステップ1で精細な線を生成した後、それらを段落にまとめる。 0.57
A GCN edge classifier predicts clustering operations on pairs of neighboring lines. gcnエッジ分類器は、隣接行のペアのクラスタリング操作を予測する。 0.70
The following subsections describe these steps in details. 以下に、これらの手順を詳述する。 0.69
In addition, we discuss the possibility of an alternative onestep process. さらに, 代替ワンステッププロセスの可能性についても検討する。 0.73
3.1 β-skeleton on Boxes A graph is a key part of the GCN model input. 3.1 β-スケルトン on Boxes グラフはGCNモデル入力の重要な部分である。 0.84
We want a graph with high connectivity for effective message passing in graph convolutions, while also being sparse for computational efficiency. 我々は、グラフ畳み込みにおいて効果的なメッセージパッシングのために高い接続性を持つグラフを欲しがる。
訳抜け防止モード: グラフ畳み込みにおける効果的なメッセージパッシングのための高い接続性を持つグラフが欲しい。 計算効率も低い。
Visibility graphs have been used in previous studies [14], [22], where edges are made by “lines-of-sight”. 可視性グラフは、前の研究 [14], [22] で使われており、エッジは「視線」で作られる。 0.77
They are not considered suitable for our models because the lines may create excessive edges. ラインが過剰なエッジを生み出す可能性があるため、モデルには適さないと考えられています。
訳抜け防止モード: 考慮されていない 我々のモデルに適した ラインが過剰なエッジを 生み出す可能性があるからです
Fig. 4(a) shows the visibility graph built on two rows of boxes, where any pairs of boxes on different rows are connected. フィギュア。 4(a)は、異なる行のボックスのペアが接続されている2つの列に構築された可視性グラフを示しています。 0.57
This means word connections between text lines may get O(n2) number of edges. つまり、テキスト行間の単語接続は、O(n2) 個のエッジを持つ可能性がある。 0.62
If we limit the lines-of-sight to be axis aligned like Fig. 視線線がfigのように軸に並ぶように制限された場合。 0.55
4(b), then the graph becomes too sparse, even producing disconnected components in some cases. 4(b) とすると、グラフはスパースになり、場合によっては切断されたコンポーネントも生成する。 0.66
(a) Free line-of-sight(b) Axis-aligned line-of-sight(c) β-skeleton (β=1) (a)自由視線(b)軸方向線(c)β骨格(β=1) 0.83
The overall time complexity of this box based β-skeleton graph construction is O(n log n), dominated by Delaunay triangulation. このボックスベースのβ-skeletonグラフの全体的な時間複雑性はo(n log n)であり、dlaunay三角測量が支配的である。 0.65
There are pathological cases where step 4 will need O(n2) time, e.g. ステップ4がO(n2)時間を必要とするような病理学的ケースもある。 0.73
all the n boxes contain a common overlapping point. すべての n ボックスは共通の重複点を含む。 0.81
But these cases are easily excluded from OCR results. しかし、これらのケースはOCRの結果から容易に除外される。 0.54
The total number of edges is bounded by O(n) as in GD, so the graph convolution layers have linear time operations. エッジの総数は GD のように O(n) で制限されるので、グラフ畳み込み層は線形時間演算を持つ。 0.78
5 3.2 Message Passing on Graphs We use spatial-based graph convolutional neural networks (GCNs) [10], [24] for both tasks of line splitting and line clustering, since both can leverage the local spatial feature aggregation and combinations across graph edges (more details in subsections 3.3 and 3.4 below). 5 3.2 グラフ上のメッセージパッシング 私たちは、線分割と線クラスタリングの両方のタスクに空間ベースのグラフ畳み込みニューラルネットワーク(GCN) [10], [24]を使用します。
訳抜け防止モード: 5 3.2 グラフのメッセージパッシング 空間ベースのグラフ畳み込みニューラルネットワーク(GCN) [10 ] [24 ] 行分割と行クラスタリングの両方のタスク。 どちらもグラフエッジをまたいだ局所的な空間的特徴の集約と組み合わせ(後述の3.3および3.4の項の詳細)を利用することができる。
Our graph convolutional neural network resembles the message passing neural network (MPNN) [25] and GraphSage [26]. 我々のグラフ畳み込みニューラルネットワークは、メッセージパッシングニューラルネットワーク(MPNN) [25] と GraphSage [26] に似ています。 0.80
We use the term “message passing phase” from [25] to describe the graph level operations in our models. 25] の “メッセージパッシングフェーズ” という用語を使って,モデル内のグラフレベルの操作を記述しています。 0.76
In this phase, repeated steps of “message passing” are performed based on a message function M and node update function U. このフェーズでは、メッセージ機能Mとノード更新機能Uとに基づいて「メッセージパス」の繰り返しステップを実行する。 0.79
At step t, a message M (ht w) is passed along every edge evw in the graph where ht w are the hidden states of node v and w. Let N (v) denote the neighbors of node v in the graph, the aggregated message by average pooling received by v is ステップ t では、ht w がノード v と w の隠れ状態であるグラフのすべてのエッジ evw に沿ってメッセージ M (ht w) が渡される。
訳抜け防止モード: ステップ t では、ht w がノード v の隠れた状態であるグラフの全てのエッジ evw に沿ってメッセージ M (ht w ) が渡される。 w. N ( v ) をグラフのノード v の隣人を表します。 vによって受信された平均プーリングによる集約されたメッセージは
v and ht v, ht v と ht v、ht 0.80
(cid:80) mt+1 (cid:80) mt+1 0.69
v = w∈N (v) M (ht |N (v)| v = w∈N (v) M (ht |N (v)| 0.90
v, ht w) and the updated hidden state is v、ht w) 更新された隠れ状態は 0.78
ht+1 v = U (ht ht+1 v = U (ht) 0.82
v, mt+1 v ) v, mt+1 v ) 0.83
(1) (2) (3) (1) (2) (3) 0.85
Alternatively, we can use attention weighted pooling [27] to enhance message aggregation. あるいは、注意重み付けプーリング[27]を使ってメッセージアグリゲーションを強化することもできます。 0.66
Consequently, the model is also called a graph attention network (GAT), where calculation of mt+1 したがって、このモデルは、mt+1の計算を行うグラフ注意ネットワーク(gat)とも呼ばれる。 0.77
is replaced by v 置き換えられます v 0.79
(cid:80) (cid:80) (cid:80) (cid:80) 0.78
mt+1 v = w∈N (v) exp(et mt+1 v = w∈N (v) exp(et) 0.76
w∈N (v) exp(et w∈N (v) exp(et) 0.85
vw)M (ht vw) vw)M (ht vw) 0.85
v, ht w) and et v、ht w) など 0.66
vw is computed from a shared attention mechanism vwは共有注意機構から計算されます 0.84
et vw = a(ht et vw = a(ht) 0.96
v, ht w) (4) v、ht w) (4) 0.82
For a, we use the self-attention mechanism introduced in [28]. 例えば、[28]で導入された自己注意機構を使用します。 0.70
In our GCN models, the message passing steps are applied on the β-skeleton graph constructed on OCR bounding boxes, so that structural information can be passed around local vicinities along graph edges, and potentially be combined and extracted into useful signals. 我々のgcnモデルでは,ocrバウンディングボックス上に構築したβ-skeletonグラフにメッセージパッシングステップを適用し,グラフエッジに沿って局所的なビビニティの周りに構造情報を伝達し,潜在的に組み合わせて有用な信号として抽出する。 0.76
Both the line splitting step and the line clustering step rely on this mechanism to make predictions on graph nodes or edges. 線分分割ステップと線分クラスタリングステップは、グラフノードやエッジの予測を行うためにこのメカニズムに依存している。 0.79
3.3 Splitting Lines As in [6], [7], if multi-column text blocks are present in a document page, splitting lines across columns is a necessary first step for finding paragraphs. 3.3 分割線 [6], [7] のように、文書ページに複数カラムのテキストブロックが存在する場合、列をまたいだ分割線が段落を見つけるための第一歩となる。 0.87
Here we have the same objective but a different input with available OCR bounding ここでは同じ目的を持っているが、利用可能なOCRバウンディングで異なる入力を持つ。 0.54
Fig. 5. Building a β-skeleton on boxes from β-skeleton on points. フィギュア。 5. β-skeleton on point ボックス上で β-skeleton を構築する。 0.67
Left side: intersecting boxes are first connected with edges of length 0. 左側: 交差箱は最初に長さ0の端で接続される。 0.78
Right side: Non-internal peripheral points are connected with β-skeleton edges which are then collapsed into box edges. 右側:非内部の周辺点がβ-骨格エッジに連結され、ボックスエッジに崩壊する。 0.74
Edge lengths are approximate. 端の長さはおよそです。 0.55
By changing “lines-of-sight” into “balls-of-sight”, we get a β-skeleton graph [11] with β = 1. を “balls-of-sight” に変更することで、β = 1 の β-骨格グラフ [11] が得られる。 0.77
In such a graph, two boxes are connected if they can both touch a circle that does not intersect with any other boxes. そのようなグラフでは、2つの箱が互いに他の箱と交わらない円に触れることができれば接続される。 0.74
It provides a good balance between connectivity and sparsity. 接続性と疎性の間のバランスは良好です。 0.68
As shown in Fig. 4(c), a β-skeleton graph does not have too many connections between rows of boxes. 図に示すように。 4(c) では、β-スケルトングラフはボックスの行間の接続があまり多くない。 0.80
With β = 1, it is a subgraph of a Delaunay triangulation [23] with number of edges bounded by O(n). β = 1 のとき、これは O(n) で有界な辺の数を持つ Delaunay triangulation [23] の部分グラフである。 0.75
Yet, it provides good connectivity within any local cluster of boxes, and the whole graph is guaranteed to be one connected component. しかし、任意のローカルクラスタ内の接続性は良好であり、グラフ全体が1つの接続コンポーネントであることが保証されている。 0.73
The original β-skeleton graph is constructed on a point set. 元のβ-スケルトングラフは点集合上に構築される。 0.70
To apply it to bounding boxes, we use an algorithm illustrated in Fig. バウンディングボックスに適用するには、図に示すアルゴリズムを使用します。 0.73
5 and described in the following steps, where n used for complexity analysis is the number of boxes. nが複雑性分析に使用されるのは、ボックスの数です。 0.41
We assume the length and width of all the input boxes are bounded by a constant. すべての入力ボックスの長さと幅は定数で区切られていると仮定します。 0.77
1. For each box, pick a set of peripheral points at a preset density, and pick a set of internal points along the longitudinal middle line3. 1. 各ボックスは、予め設定された密度で周辺点のセットを選択し、縦中間線3に沿って内部点のセットを選択する。 0.82
2. Build a Delaunay triangulation graph GD on all the 2. すべてのDelaunay三角グラフGDを構築します。 0.79
points. (Time complexity O(n log n) [23].) ポイント (時間複雑性o(n log n) [23]) 0.57
3. Find all the “internal” points that are inside at least one of the boxes. 3. ボックスの少なくとも1つの中にあるすべての「内部」ポイントを見つけます。 0.82
(Time complexity O(n) by traversing along GD’s edges inside each box starting from any peripheral point. (時間複雑性o(n)は、各ボックス内のgdのエッジに沿って、任意の周辺点から始まります。 0.70
Internal points are marked grey in Fig. 内部ポイントはフィグで灰色にマークされる。 0.61
5.) 4. Add an edge of length 0 for each pair of intersecting 5.) 4. 交差する各対に長さ 0 の辺を加える 0.83
boxes (containing each other’s peripheral points). ボックス(お互いの周辺点を含む)。 0.61
5. Pick β-skeleton edges from GD where for each edge e = (v1, v2), both its vertices v1, v2 are non-internal points and the circle with v1v2 as diameter does not cover any other point. 5. それぞれの辺 e = (v1, v2) に対して、その頂点 v1, v2 は非内部点であり、直径として v1v2 の円は他の点を覆わない。 0.80
If there is such a point set Vc covered by the circle, then the point v3 ∈ Vc closest to v1v2 must be the neighbor of either v1 or v2 (in Delaunay triangulation graphs). そのような点集合 Vc が円で被覆されているとき、v1v2 に最も近い点 v3 ∈ Vc は v1 または v2 の隣りでなければならない。 0.78
Finding such v3 takes O(log n) time for each edge, since GD produced in step 2 have edges sorted at each point. ステップ2で生成されたgdは各点でエッジソートされるため、そのようなv3を見つけるには各エッジにo(log n)時間を要する。 0.67
6. Keep only the shortest edge for each pair of boxes as the 6. ボックスのペアごとに最短のエッジのみを保持します。 0.82
β-skeleton edge. βスケルトンエッジ。 0.71
3. The middle line points are added so that no edges can go through 3. ミドルラインポイントは、エッジが通らないように追加されます。 0.79
the boxes. ABCD0112ABCDABCDABCD 0 箱だ ABCD0112ABCDABCD0 0.45
6 Fig. 6. 6 フィギュア。 6. 0.71
Overview of the line splitting model. ライン分割モデルの概要。 0.63
In the output, line start nodes are marked green and line end nodes are marked orange. 出力では、ラインスタートノードは緑に、ラインエンドノードはオレンジにマークされる。 0.79
Fig. 7. Overview of the line clustering model. フィギュア。 7. ラインクラスタリングモデルの概要。 0.64
In the output, positive edges are marked pink. 出力では、正のエッジがピンクにマークされる。 0.58
boxes for each word and symbol. それぞれの単語とシンボルのボックスです 0.79
Image processing can be skipped to accelerate computations. 画像処理は、計算を加速するためにスキップできる。 0.71
Note that the horizontal spacings between words is not a reliable signal for this task, as when the typography alignment of the text is “justified,” i.e. 単語間の水平間隔は、テキストのタイポグラフィアライメントが「正当」であるような、このタスクの信頼できる信号ではないことに注意してください。 0.73
the text falls flush with both sides, these word spacings may be stretched to fill the full column width. テキストは両側で流れ落ち、これらの単語間隔は全列幅を満たすように伸ばすことができる。 0.71
In Fig. 3, the bottom left line has word spacings larger than the column gap. 図1。 3の左下のラインにコラムのギャップより大きい単語の間隔があります。 0.70
This is common in documents with tightly packed text such as newspapers. これは新聞などの文章が密集した文書では一般的である。 0.66
We use the GCN model shown in Fig. 図に示すGCNモデルを使用します。 0.79
6 to predict the splitting points, or tab-stops. 分割ポイント、またはタブ停止を予測します。 0.58
Each graph node is a word bounding box. 各グラフノードはワードバウンディングボックスである。 0.73
Graph edges are the β-skeleton edges built as described in section 3.1. グラフエッジ(graph edges)は、第3.1節に記述されたβ骨格エッジである。 0.50
The model output contains two sets of node classification results – whether each word is a “line start” and whether it is a “line end”. モデル出力にはノード分類結果のセットが2つ含まれており、各単語が「ラインスタート」か、「ラインエンド」かは問わない。 0.80
This model is expected to work well for difficult cases like dense text columns with “justified” alignment by aggregating signals from words in multiple lines surrounding the potential splitting point. このモデルは、潜在的分裂点を囲む複数の行の単語からの信号を集約することで、"正当"なアライメントを持つ高密度テキスト列のような難しいケースでうまく機能することが期待されている。 0.61
Fig. 8 shows a zoomed-in area of Fig. フィギュア。 8は図のズームイン領域を示しています。 0.49
3 with a βskeleton graph constructed from the word bounding boxes. 単語バウンディングボックスから構築されたβスケルトングラフを含む3。 0.75
Since words are aligned on either side of the two text columns, a set of words with their left edges all aligned are likely on the left side of a column, i.e. 単語は2つのテキスト列の両側に並んでいるため、左端が全て並んでいる単語のセットは、列の左側、すなわち、列の左側にある可能性が高い。 0.78
these words are line starts. この言葉は ラインスタートだ 0.69
Similarly, a set of words with right edges all aligned are likely on the right side and are line ends. 同様に、右端がすべて整列した単語のセットは、右側にある可能性が高く、行末です。 0.75
The β-skeleton edges are guaranteed to connect aligned words in neighboring lines, since aligned words have the shortest distance between the two lines and there is nothing in between to block the connection. β-スケルトンエッジは、2つの行間の最短距離を持ち、接続をブロックする間には何も存在しないため、隣の行で整列した単語を接続することが保証される。 0.74
Thus, the alignment signal can be passed around in the message passing steps and be これにより、アライメント信号がメッセージパッシングステップ内を通り抜けて行くことができる。 0.77
Fig. 8. Line splitting signal from word box alignment propagating through β-skeleton edges. フィギュア。 8. βスケルトンエッジを伝搬するワードボックスアライメントからのライン分割信号。 0.69
The resulting predictions are equivalent to tab-stop detection. 結果の予測はタブストップ検出に相当します。 0.54
Fig. 9. Example of paragraph line clustering by indentations. フィギュア。 9. インデンテーションによるパラグラフラインクラスタリングの例。 0.67
Light blue edges indicate the β-skeleton constructed on line bounding boxes, and pink edges indicate that the connected lines are clustered into paragraphs. 明るい青色の縁は線引きボックス上に構築されたβ骨格を示し、ピンク色の縁は接続された線が段落に群がっていることを示している。 0.61
effectively learned by the GCN model. GCNモデルによって効果的に学習される。 0.58
Moreover, the two sets of words beside the column gap are also connected with β-skeleton edges crossing the two columns, so the signals can be mutually strengthened. さらに、カラムギャップの横にある2つのワードセットは、2つのカラムを交差するβスケルトンエッジとも接続されているため、信号は相互に強化することができる。
訳抜け防止モード: さらに、カラムギャップの横にある2組の単語もβと接続される。 2つの柱を横切る骨格の端 信号は相互に強化できる
3.4 Clustering Lines After splitting all the lines into “true” lines, the remaining task is to cluster them into paragraphs. 3.4 クラスタリングライン すべての行を「真の」行に分割した後、残りのタスクは、それらを段落にまとめることである。
訳抜け防止モード: 3.4 以降のクラスタリング すべての行を "true" 行に分割します 残りの仕事は それらを段落にまとめること。
Again we use a …Input word bounding boxes and the β-skeleton graphGraph convolution stepM UGraph convolution stepM UFully connectedNode predictions “Line start” “Line end”……Input line bounding boxes and the β-skeleton graphGraph convolution stepM UGraph convolution stepM UFully connectedEdge predictions “Should cluster”…Node-to-edgeM’ Right aligned, end of linesLeft aligned, start of lines もう一度使う input word bounding box and the β-skeleton graph convolution stepM UGraph convolution stepM UFully connectedNode predictions "Line start" "Line end".........Input line bounding box and the β-skeleton graph Graph convolution stepM UGraph convolution stepM UFully connectedEdge predictions "Should cluster"...Node-to-edgeM 7; right aligned, end of lineLeft aligned, start of line 0.78
graph convolutional neural network, but now each graph node is a line bounding box, and the output is edge classification similar to link prediction in [29], [30]. グラフ畳み込みニューラルネットワークは、今や各グラフノードはラインバウンディングボックスであり、出力は[29], [30]におけるリンク予測と類似したエッジ分類である。 0.82
We define a positive edge to be one that connects two consecutive lines in the same paragraph. 正の辺を、同じ段落で2つの連続する直線を繋ぐものと定義する。 0.67
Note that it is possible to have nonconsecutive lines in the same paragraph being connected by a β-skeleton edge. 同じ段落にβ-スケルトンエッジで接続されている非連続線を持つことができることに注意してください。 0.67
Such edges are defined as negative to make the task easier to learn. このようなエッジは、タスクを学習しやすくするために負と定義されます。 0.62
Fig. 7 is an overview of the line clustering model. フィギュア。 7は、ラインクラスタリングモデルの概要である。 0.60
It looks similar to the line splitting model in Fig. Figのライン分割モデルに似ています。 0.70
6, except the input consists of line bounding boxes, and the output predictions are on graph edges instead of nodes. 入力は行境界ボックスで構成されており、出力予測はノードではなくグラフエッジ上にある。 0.64
An additional “nodeto-edge” step is necessary to enable edge classification with node-level output from the graph convolution steps. グラフ畳み込みステップからノードレベルの出力を持つエッジ分類を可能にするには、さらに“ノードツーエッジ”ステップが必要である。
訳抜け防止モード: 追加の “nodeto - edge ” ステップが必要 グラフ畳み込みステップからノードレベル出力によるエッジ分類を可能にする。
It works in a similar way as the first half of a graph convolution step, with node aggregation replaced by edge aggregation: m(cid:48) グラフ畳み込みステップの前半と同じように動作し、ノードアグリゲーションをエッジアグリゲーションに置き換える: m(cid:48)
訳抜け防止モード: これは、グラフの畳み込みステップの前半と同じ方法で機能する。 ノードアグリゲーションをエッジアグリゲーションに置き換える:m(cid:48 )
M(cid:48)(hv, hw) + M(cid:48)(hw, hv) M(cid:48)(hv, hw) + M(cid:48)(hw, hv) 0.98
e=(v,w) = 2 e=(v,w) = 2 0.90
(5) The model predicts whether two lines belong to the same paragraph on each pair of lines connected with a βskeleton edge. (5) このモデルは、2本の線がβスケルトンエッジに接続された各一対の線で同じ段落に属するかどうかを予測します。
訳抜け防止モード: (5) モデルが予測する 2つの線は、βスケルトン辺に接続された各一対の線上の同じ段落に属する。
The predictions are made from multiple types of context. 予測は複数の種類のコンテキストから作成される。 0.77
• Indentation: For example, in Fig. • インデント: 例えば、図に示します。 0.79
9 which is zoomed-in from Fig. これはFig.9からズームインされる。 0.46
3, each new paragraph starts with an indented line, so the edge connecting the fourth and fifth lines in the left column is predicted as non-clustering. 3) 新しい段落はインデントラインから始まり、左カラムの4行目と5行目を結ぶエッジは非クラスタ化として予測される。 0.78
• Vertical spacing: “Block paragraphs” are separated by extra vertical spacing, which are common in web pages. •垂直間隔:「ブロック段落」は、Webページで一般的な余分な垂直間隔によって分離されます。 0.79
Line spacing signals are passed around in graph convolutions to detect vertical space variations. 線間隔信号はグラフ畳み込みで渡され、垂直空間の変動を検出する。 0.77
• List items: The first line of a list item is usually outdented with a bullet point or a number, and the first word after is flush with the following lines. • リスト項目: リスト項目の最初の行は、通常、弾丸点または数字で上書きされ、その後の最初のワードは、以下の行でフラッシュされる。 0.82
So list items can be detected in a similar way as indentation based paragraphs. したがって、リスト項目はインデントベースの段落と同じような方法で検出できる。 0.66
Besides the three common types listed above, we may have other forms of paragraphs such as mailing addresses, computer source code or other customized structures. 上記の3つの共通型に加えて、メーリングアドレス、コンピュータソースコード、その他のカスタマイズされた構造など、他の形式の段落を持つことができる。 0.63
The model can be trained on different types of layout data. モデルは、異なるタイプのレイアウトデータでトレーニングすることができる。 0.79
3.5 Possibility of Clustering Words If a 1-step model can cluster the words directly into paragraphs, it will be preferable to the 2-step GCN models described above. 3.5 クラスタリング語の可能性 1 段階のモデルが単語を直接段落にクラスタリングできる場合、2 段階の GCN モデルよりも好まれる。 0.76
A single model is not only faster to train and run, but can also avoid cascading errors where the first step’s mistake propagates to the second. 単一のモデルは、トレーニングと実行が速くなるだけでなく、最初のステップのミスが第2に伝播するカスケードエラーを回避することもできます。 0.76
However, there is significant difficulty for a 1-step GCN model to work on the paragraph word clustering problem. しかし,1段階のGCNモデルでは,段落のクラスタリング問題に対処することが困難である。 0.81
First, word based GCN models may not have good signal aggregation for line level features because of the limited number of graph convolution layers. 第一に、単語ベースのGCNモデルは、グラフ畳み込み層の数が限られているため、ラインレベルの特徴に対する良好な信号集約を持たない可能性がある。 0.60
The oversmoothing effect [31], [32] limits the depth of the network, i.e. 過密効果[31],[32]はネットワークの深さ、すなわちネットワークの深さを制限する。 0.78
the number of “message passes”. メッセージパス”の数。 0.51
With β-skeleton graphs mostly consisting of local connections, the “receptive field” on each graph node is small and often cannot cover a whole line. β-スケルトングラフは主に局所接続で構成されており、各グラフノードの「受容フィールド」は小さく、行全体をカバーできないことが多い。 0.77
For instance, a word at the end of a line has no information on whether this line is indented. 例えば、行の末尾にある単語は、この行がインデントされているかどうかに関する情報を持たない。 0.66
In a general purpose paragraph model where the input can be noisy and deformed, this limitation can severely affect model performance. 入力がノイズや変形を生じ得る汎用段落モデルでは、この制限はモデル性能に重大な影響を及ぼす可能性がある。 0.75
Sample web script code for changing paragraph styles. 段落スタイルを変更するためのサンプルWebスクリプトコード。 0.77
Random combinations of these changes are used in training data synthesis. これらの変化のランダムな組み合わせは、トレーニングデータ合成に使用される。 0.66
TABLE 1 7 Style Change 表1 7 スタイルチェンジ 0.75
Script Sample Single-column to double-column スクリプトサンプル 単柱から二柱 0.67
Vertical spacing to indentation インデントへの垂直間隔 0.76
div.style.columnCoun t = 2; div.style.columnCoun t = 2; 0.65
div.style.textIndent = 30px; div.style.marginTop = 0; div.style.marginBott om = 0; div.style.textIndent = 30px; div.style.marginTop = 0; div.style.marginBott om = 0; 0.59
Typography alignment タイポグラフィーアライメント 0.57
div.style.textAlign = “right”; div.style.textAlign = "right"; 0.81
Text column width div.style.width = 50%; テキスト列幅 div.style.width = 50%; 0.67
Horizontal text block position 水平テキストブロック位置 0.77
div.style.marginLeft = 20%; div.style.marginleft = 20%; 0.77
Line height/spacing div.style.lineHeight = 150%; 線高・スポーピング div.style.lineHeight = 150%; 0.64
Font div.style.fontFamily = “times”; フォント div.style.fontfamily = "times"; 0.78
While it is possible to extend the receptive fields by adding non-local edges in the graph, or employing residual connections and dilated convolutions [32] in the model, it is non-trivial to build a scalable and effective solution. グラフに非局所エッジを追加したり、モデルに残留接続と拡張畳み込み [32] を使用することで受容フィールドを拡張することは可能だが、スケーラブルで効果的なソリューションを構築することは自明ではない。 0.70
This is an interesting topic for further research, but not the focus of this paper. これはさらなる研究にとって興味深い話題であるが、本論文の焦点ではない。 0.79
4 SYNTHETIC TRAINING DATA FROM WEB A large set of diverse and high quality annotated data is a necessity for training deep neural networks. 4 Webからの合成トレーニングデータ 多様で高品質の注釈付きデータの大規模なセットは、ディープニューラルネットワークのトレーニングに必要です。 0.76
Such datasets are not readily available for paragraphs and layout-related tasks. このようなデータセットは段落やレイアウト関連のタスクでは簡単には利用できない。 0.53
The PubLayNet dataset [8] is a very large annotated set, but lacks in style diversity as all the pages are from publications. PubLayNetデータセット[8]は非常に大きなアノテーションセットですが、すべてのページが出版物から来ているため、スタイルの多様性に欠けています。 0.62
Therefore, we largely rely on automated training data generation [33]. そのため、自動トレーニングデータ生成 [33] に大きく依存しています。 0.73
By taking advantage of high quality and publicly available web documents, as well as a powerful rendering engine used in modern browsers, we can generate synthetic training data with a web scraper. 高品質で公開可能なWebドキュメントと、モダンなブラウザで使用される強力なレンダリングエンジンを活用することで、Webスクレイパーで合成トレーニングデータを生成することができる。 0.79
4.1 Scraping Web Pages with Modified Styles Web pages are a good source of document examples. 4.1 Sraping Web Pages with Modified Styles Web Pagesは、ドキュメントの好例である。 0.85
Wikipedia [12] is well known to host a great number of high quality articles with free access. Wikipedia[12]は、多くの高品質な記事が無料でアクセスできることで知られている。 0.80
We use a browser-based web scraper to retrieve a list of Wikipedia pages, where each result includes the image rendered in the browser as well as the HTML DOM (document object model) tree of that page. ブラウザベースのWebスクレーパーを使用して、Wikipediaのページのリストを取得します。各結果には、ブラウザでレンダリングされた画像と、そのページのHTML DOM(ドキュメントオブジェクトモデル)ツリーが含まれます。 0.76
The DOM tree contains the complete document structure and detailed locations of all the rendered elements, from which we can reconstruct the ground truth line bounding boxes. domツリーには、完全なドキュメント構造とレンダリングされたすべての要素の詳細な位置が含まれており、そこから基底真理ラインバウンディングボックスを再構築できる。 0.66
Each line bounding box is an axis-aligned rectangle covering a line of text. 各行境界ボックスは、テキストの行をカバーする軸方向の矩形である。 0.77
For paragraph ground truth, the HTML tag <p> conveniently indicates a paragraph node, and all the text lines under this node belong to the same paragraph. 段落の真理のために、HTMLタグ<p>は段落ノードを便利に示し、このノードの下のすべてのテキスト行は同じ段落に属します。 0.78
One issue of using web page data directly for document layout is the lack of diversity in document styles. ドキュメントのレイアウトに直接Webページデータを使用することの1つの問題は、ドキュメントスタイルの多様性の欠如です。 0.72
Almost all web pages use vertical spacing to separate paragraphs, and multi-column text is rare. ほとんどのWebページは縦間隔で段落を分割し、複数カラムのテキストは稀である。 0.68
Fortunately, modern web browsers support extensions that can run script code on web 幸いなことに、最新のwebブラウザはweb上でスクリプトコードを実行できる拡張機能をサポートしている 0.55
8 Fig. 10. 8 フィギュア。 10. 0.71
Training data examples from web scraping with randomized style changes and data augmentation. ランダムなスタイルの変更とデータ拡張によるWebスクレイピングからのデータ例をトレーニングする。 0.63
Green boxes indicate line ground truth labels and yellow boxes indicate multi-line paragraph ground truth labels. グリーンボックスはライングラウンドの真理ラベル、イエローボックスは複数ラインの段落の真理ラベルを示す。 0.71
(Yellow paragraph boxes are for visualization purpose only. (yellow段落ボックスは可視化目的のみである。 0.83
Paragraph ground truth labels are represented by sets of line numbers in order to prevent ambiguity when there are overlaps between paragraph bounding boxes.) 第1段落の真理ラベルは、段落境界ボックス間に重なりがある場合の曖昧さを防止するために、行番号のセットで表現される。 0.67
pages to change their CSS styles. CSSスタイルを変更するページ。 0.73
For example, to generate double-column text for a certain division of a page, we can use “div.style.columnCoun t = 2.” たとえば、ページの特定の分割のための二重列テキストを生成するには、「div.style.columnCoun t = 2」を使用できます。 0.74
Table 1 lists a few examples of web script code for changing paragraph styles. 表1は、段落スタイルを変更するためのwebスクリプトコードの例を示しています。 0.67
Such pieces are randomly picked and combined in our training data pipeline. このような部分はランダムに選択され、トレーニングデータパイプラインに組み合わされます。 0.61
Parameters such as column count and alignment type are also randomized. 列数やアライメントタイプなどのパラメータもランダム化されます。 0.79
Thus, the total combinations give a great diversity of styles to simulate various types of documents to be encountered in the real world. したがって、合計の組み合わせは、現実世界で遭遇するさまざまな種類の文書をシミュレートするためのスタイルの大きな多様性を与えます。 0.82
4.2 Data Augmentation A general-purpose OCR engine must accommodate all types of input images, including photos of text taken at different camera angles. 4.2 データ拡張 汎用OCRエンジンは、異なるカメラアングルで撮影されたテキストの写真を含むあらゆる種類の入力画像に対応できなければならない。 0.65
Our model should be able to handle the same variations in input, so data augmentation is needed to transform the rectilinear data scraped from web pages into photo-like data. 私たちのモデルは、入力の同じバリエーションを処理できるため、Webページからスクレイピングされた直交データを写真のようなデータに変換するためにデータ拡張が必要です。 0.71
To emulate the effect of camera angles on a page, we need two types of geometric transformation: rotation and perspective projection. ページ上のカメラアングルの効果をエミュレートするには、回転と視点投影の2種類の幾何学的変換が必要である。 0.78
Again, we use randomized parameters in each transformation to diversify our data. 繰り返しますが、各変換でランダム化パラメータを使用してデータを多様化します。 0.58
Each data point gets a random projection followed by a random rotation, applied to both the image and ground truth boxes. 各データポイントはランダムな投影とランダムな回転が続き、画像と地上の真理のボックスの両方に適用される。 0.79
Fig. 10 shows two training examples with data augmentation. フィギュア。 10は、データ拡張による2つのトレーニング例を示す。 0.51
• The left one has Arial font, dense text lines, paragraphs separated by indentation and the camera placed near the upper-left corner. ※左側はアリルフォント、濃密なテキスト行、インデンテーションで区切られた段落、左上隅にカメラが設置されている。 0.62
• The right one has Monospace font, sparse text lines, paragraphs separated by vertical spacing and the camera placed near the lower-right corner. • 右のフォントにはモノスペースフォント、テキストライン、縦間隔で区切られた段落、右下隅にカメラが置かれている。 0.71
Note that we do not need pixel-level augmentation (imaging noise, illumination variation, compression artifacts, etc.) ピクセルレベルの拡張(画像ノイズ、照明変動、圧縮アーティファクトなど)は不要であることに注意してください。 0.75
for the training of our GCN models, because these models only take bounding box features from the OCR engine output, and are decoupled from the input image. GCNモデルのトレーニングのために、これらのモデルはOCRエンジン出力からのバウンディングボックス機能のみを取り、入力画像から切り離されるためです。 0.72
Even when real input images look very different from the training data images, the bounding boxes from a robust OCR engine can still be consistent. 実際の入力画像がトレーニングデータイメージと非常に異なるように見える場合でも、堅牢なOCRエンジンからのバウンディングボックスは一貫性がある。 0.72
It is assumed that the OCR engine has been trained to be robust to pixel-level degradation, as is the case in the present work. OCRエンジンは、現在の研究と同様に画素レベルの劣化に対して堅牢であるように訓練されていると推定されている。 0.67
4.3 Sequential 2-Step Training by Web Synthetic Data 4.3 Web 合成データによる2段階連続学習 0.70
We train the two GCN models in sequence, where the line clustering input depends on the line splitting model. 我々は2つのGCNモデルを連続的に訓練し、ラインクラスタリング入力はライン分割モデルに依存する。 0.81
For each model, the classification ground truth labels are computed from matching OCR output to the shapes of ground truth (GT) lines. 各モデルでは、OCR出力のマッチングから地上真理(GT)ラインの形状まで、分類地上真理ラベルが計算されます。 0.68
The GT lines are denoted by L1, L2, ..., Ln. GT線はL1, L2, ..., Lnと表記される。 0.86
Each GT line is a rectangle from the web rendering engine, and is transformed into a quadrilateral in data augmentation. 各GTラインは、Webレンダリングエンジンからの長方形であり、データ拡張の四辺形に変換されます。 0.76
In the line splitting model, the graph nodes are the OCR word boxes, and the output labels are node classifications on whether each node is a “line start” and whether it is a “line end”. ライン分割モデルでは、グラフノードはOCRワードボックスであり、出力ラベルは各ノードが「ラインスタート」であるかどうかと、それが「ラインエンド」であるかどうかのノード分類です。 0.80
These labels can be computed by the following two steps. これらのラベルは以下の2つのステップで計算できる。 0.73
• For each OCR word wi, the word is allocated to the ground truth line with maximum intersection area with the word bounding box. • 各 OCR 単語 wi に対して、単語境界ボックスとの最大交差領域を持つ接地真理線に単語を割り当てる。 0.74
• For each GT line Lj, sort the words allocated to this line along its longitudinal axis. • 各GTラインLjに対して、この行に割り当てられた単語を縦軸に沿って並べ替える。 0.81
The word at the left end is a line start, the word at the right end is a line end, and the remaining words are negative on both. 左端の単語は行開始であり、右端の単語は行終了であり、残りの単語は両方とも否定的である。 0.64
In the line clustering model, the graph nodes are the line boxes after the line splitting process, and the output labels are edge classifications on whether an edge connects two lines that are adjacent lines in the same paragraph. ラインクラスタリングモデルでは、グラフノードはライン分割プロセス後のラインボックスであり、出力ラベルは、エッジが同じ段落の隣接するラインである2つのラインを接続するかどうかのエッジ分類である。 0.88
For each β-skeleton edge that connects a pair of OCR line boxes (li, lj), we find the corresponding pair of GT line boxes (Li(cid:48), Lj(cid:48)) by the same maximum intersection area as the step above. 一対のOCRラインボックス (li, lj) を接続する各β-骨格エッジに対して、対応する一対のGTラインボックス (Li(cid:48), Lj(cid:48)) を上記のステップと同じ最大交叉領域で見つける。 0.83
The edge label is positive if Li(cid:48) and Lj(cid:48) belong to the same paragraph and |i(cid:48) − j(cid:48)| = 1. Li(cid:48) と Lj(cid:48) が同じ段落に属し、 |i(cid:48) − j(cid:48)| = 1 であるとき、エッジラベルは正となる。 0.78
4 The line clustering model input is generated from line splitting on the OCR results. 4 ラインクラスタリングモデル入力は、OCR結果のライン分割から生成される。 0.79
While there remains some risk of cascading of errors, line clustering is able to correct some mistakes in the previous line splitting step. エラーをカスケードするリスクはあるが、ラインクラスタリングは、前の行分割ステップでいくつかのミスを修正することができる。 0.70
Specifically, 4. |i(cid:48) − j(cid:48)| = 1 means no skip-line positive edges, which makes the task easier to learn. 具体的には 4. i(cid:48) − j(cid:48)| = 1 はスキップライン正のエッジを含まないため、タスクの学習が容易になる。 0.69
For datasets without line level ground truth labels, this condition is replaced by “there is no path in the β-skeleton graph shorter than edge (li, lj)”. ラインレベル基底真理ラベルのないデータセットの場合、この条件は"エッジ (li, lj) よりも短いβ-スケルトングラフに経路がない"と置き換えられる。 0.85
• For “under-splitting”, i.e. • “under-splitting”,すなわち“under-splitting”。 0.60
when an OCR line covers multiple GT lines, there is no way to correct it by clustering, and the training example is discarded. OCRラインが複数のGTラインをカバーする場合、クラスタリングによって修正する方法はなく、トレーニング例は破棄されます。 0.79
• For “over-splitting”, • “over-splitting” の場合。 0.70
i.e. when multiple OCR lines match the same GT line, the line clustering model can cluster the over-split short lines into the same paragraph and recover the original lines. i.e. 複数のOCRラインが同じGTラインと一致する場合、ラインクラスタリングモデルは、オーバースプリットされたショートラインを同じ段落にクラスタリングし、元の行を復元する。 0.75
See the second picture in Fig. 15 as an example. 図の2枚目を参照。 例として15。 0.78
The sequential training steps enable this error correction. シーケンシャルトレーニングステップは、このエラー修正を可能にします。 0.60
It is worth noting that the ground truth labels associated with table elements are treated as “don’t-care” and assigned with weight 0 in training. テーブル要素に関連する基底真理ラベルは、「注意しない」として扱われ、トレーニングで重量0で割り当てられていることに注意してください。 0.73
The reason is that tables have very different structures from paragraphed text, and the two types of entities often produce contradicting labels within the current GCN framework. 理由は、テーブルは段落付きテキストとは全く異なる構造を持ち、二つのタイプのエンティティはしばしば現在のGCNフレームワーク内で矛盾するラベルを生成するからです。 0.75
Using GCN for table detection like [14] is another interesting topic but out of the scope of this paper. 14]のようなテーブル検出にGCNを使用することも興味深いトピックですが、この論文の範囲外です。 0.80
5 EXPERIMENTS We experiment with the 2-step GCN models and evaluate the end-to-end performance on both the open PubLayNet dataset and our own annotated sets. 5 実験 GCN モデルを用いて実験を行い,オープンな PubLayNet データセットとアノテートしたアノテートセットの両方において,エンドツーエンドのパフォーマンスを評価する。 0.71
In the end-to-end flow, the line splitting model and the line clustering model work in a sequential order. エンドツーエンドのフローでは、ライン分割モデルとラインクラスタリングモデルがシーケンシャルな順序で動作します。 0.85
It takes an OCR result page as input, and produces a set of paragraphs each containing a set of lines, and every line in the page belongs to exactly one paragraph. これは、入力としてOCR結果ページを取り、各行のセットを含む段落のセットを生成し、ページのすべての行は、正確に1つの段落に属します。 0.75
5.1 Setups We use the OCR engine behind Google Cloud Vision API DOCUMENT TEXT DETECTION 5 version 2020 for all the pre-layout detection and recognition tasks. 5.1 セットアップ Google Cloud Vision API DOCUMENT TEXT DETECTION 5バージョン2020のOCRエンジンを、すべての事前レイアウト検出および認識タスクに使用します。 0.87
Setup details are elaborated as follows. 設定の詳細は以下の通り。 0.76
5.1.1 Data We use 3 datasets in our evaluations: PubLayNet from [8], the web synthetic set as described in section 4, and a human annoatated set with real-world images. 5.1.1 データ 評価にはPubLayNetの[8]、セクション4で説明されているウェブ合成セット、現実世界のイメージを備えた人間のアノアテッドセットの3つのデータセットを使用します。 0.71
• PubLayNet contains a large amount of document images with ground truth annotations: 340K in the training set and 12K in the development/validati on set. •PubLayNetには、基礎となる真理アノテーションを備えた大量のドキュメントイメージが含まれており、トレーニングセットは340K、開発/検証セットは12Kである。
訳抜け防止モード: •PubLayNetは、基礎的真理アノテーションを含む大量の文書画像を含む : トレーニングセットの340K と、開発/検証セットの12Kである。
The testing set ground truth has not been released at the time of this writing, so here we use the development set for testing. テストセットの真実はこの記事執筆時点でリリースされていないので、ここではテストに開発セットを使用します。 0.77
• For web synthetic, we scrape 100K Wikipedia [12] pages in English for image based model training and testing at a 90/10 split. ウェブ合成の場合、画像ベースのモデルトレーニングとテストのために英語で100K Wikipedia [12]ページを90/10分割でスクレイピングします。 0.74
For GCN models, 10K pages are enough. GCNモデルの場合、10Kページは十分です。 0.78
An additional 10K pages in Chinese, Japanese and Korean are scraped to train the omni-script GCN models. 中国語、日本語、韓国語で10Kページを追加し、Omni-script GCNモデルを訓練する。 0.68
• We also use a human annotated set with real-world images – 25K in English for training and a few hundred for testing in each available language. •私達はまた実世界のイメージが付いている人間の注釈付きセットを使用します–訓練のための英語の25Kおよび利用できる各言語のテストのための数百。 0.69
The images are collected from books, documents or objects with printed text, and then sent to a team of raters who draw the ground truth polygons for all the paragraphs. 画像は、印刷されたテキストを持つ本、文書、またはオブジェクトから収集され、すべての段落の地上の真実多角形を描く評価者のチームに送られます。 0.70
Example images are shown in Fig. 例画像は図に示します。 0.67
14, 15 and 16. 14, 15, 16。 0.79
5. https://cloud.google .com/vision/docs/ful ltext-annotations 5. https://cloud.google .com/vision/docs/ful ltext-annotations 0.29
9 5.1.2 Models and Hyperparameters The GCN models are built as in Fig. 9 5.1.2モデルとハイパーパラメータ GCNモデルはFigで構築されている。 0.76
6 and Fig. 7, each carrying 8 steps of graph convolutions with 4-head selfattention weighted pooling [27], [28]. 6およびFig。 7) それぞれ8段階のグラフ畳み込みを持ち, 4 つの自己アテンション重み付けプール [27], [28] を持つ。 0.67
At the models’ input, each graph node’s feature is a vector containing its bounding box information of the word or the line. モデルの入力では、各グラフノードの特徴は、単語または行のバウンディングボックス情報を含むベクトルである。 0.66
The first five values are width w, height h, rotation angle α, cos α and sin α. 最初の5つの値は幅w、高さh、回転角α、cosα、 sinαである。 0.80
Then for each of its 4 corners (xp, yp), we add 6 values [xp, xp cos α, xp sin α, yp, yp cos α, yp sin α]. 次に、その4つのコーナー(xp, yp)ごとに、6つの値[xp, xp cos α, xp sin α, yp, yp cos α, yp sin α]を追加します。 0.92
For line clustering, an additional w1 indicating the first word’s width is added to each line for better context of line breaks and list items. ラインクラスタリングでは、ラインブレークやリストアイテムのコンテキストを改善するために、最初のワードの幅を示す追加のw1が各行に追加される。 0.80
These values provide the starting point for feature crossings and combinations in graph convolutions. これらの値は、グラフ畳み込みにおける特徴交差と組み合わせの出発点となる。 0.67
This low dimension of model input enables lightweight and efficient computation. この低次元のモデル入力は軽量で効率的な計算を可能にする。 0.69
Model inference latency is very low, under 20 milliseconds for an input graph of around 1500 nodes (on a 12core 3.7GHz Xeon CPU), since each GCN model is less than 130KB in size with 32-bit floating point parameters. 各GCNモデルは32ビット浮動小数点パラメータで130KB未満であるため、モデル推論のレイテンシは非常に低く、1500ノード(12core 3.7GHz Xeon CPU上)の入力グラフは20ミリ秒未満である。 0.81
In fact, the computation bottleneck is on the β-skeleton construction which can take ∼50 milliseconds for the same graph. 実際、計算のボトルネックは、同じグラフに対して50ミリ秒かかるβ-スケルトン構成である。 0.70
Compared to the main OCR process, the overall GCN latency is small, and the O(n log n) complexity ensures scalability. メインのOCRプロセスと比較して、全体的なGCNレイテンシは小さく、O(n log n)の複雑さはスケーラビリティを保証する。 0.68
We cannot claim that GCN models have better latency than image based R-CNN models, because image models can run in parallel with the OCR engine when resources allow. GCNモデルがイメージベースR-CNNモデルよりもレイテンシが高いと主張することはできない。
訳抜け防止モード: GCNモデルがイメージベースR-CNNモデルよりもレイテンシが優れていると主張することはできません。 なぜなら、イメージモデルはリソースが許せばOCRエンジンと並列に実行できるからです。
Instead, the small size of GCN models makes them easy to be deployed as a lightweight, low cost and energy efficient step of post-OCR layout analysis. 代わりに、GCNモデルの小さなサイズは、OCR後のレイアウト分析の軽量で低コストでエネルギー効率の良いステップとしてデプロイしやすくする。 0.76
5.1.3 Evaluation Metrics While classification tasks are evaluated by precision and recall, the end-to-end performance is measured by IoU based metrics such as the COCO mAP@IoU[.50:.95] used in [8] so the results are comparable. 5.1.3 評価メトリクス 分類タスクは精度とリコールによって評価されるが、[8]で使用されるCOCO mAP@IoU[.50:.95]のようなIoUベースのメトリクスによってエンドツーエンドのパフォーマンスが測定される。 0.76
The average precision (AP) for mAP is usually calculated on a precision-recall curve. mAPの平均精度(AP)は通常、精度-リコール曲線で計算される。 0.87
Since our models produce binary predictions instead of detection boxes, we have only one output set of paragraph bounding boxes, i.e. 我々のモデルは検出ボックスの代わりにバイナリ予測を生成するので、段落境界ボックスの出力セットは1つしかない。 0.77
only one point on the precision-recall curve. 精度-リコール曲線上の1点のみ。 0.70
So AP = precision × recall. なので、ap = precision × recall。 0.64
We introduce another metric F1var using variable IoU thresholds, which is more suitable for paragraph evaluations. 段落評価に適した可変IoUしきい値を用いた別の計量F1varを提案する。 0.76
In Fig. 11, a single-line paragraph has a lower IoU even though it is correctly detected, while a 4-line detection (in red) has a higher IoU with a missed line. 図1。 11、単行段落は、正しく検出されているにもかかわらず、より低いIoUを有する一方、4行検出(赤)は、ミスラインを有するより高いIoUを有する。 0.67
This is caused by boundary errors at character scale rather than at paragraph scale. これは、段落スケールではなく文字スケールでの境界誤差によって引き起こされる。 0.70
This error is larger for post-OCR methods since the OCR engine is not trained to fit paragraph boxes. OCRエンジンは段落箱に合うように訓練されていないため、OCR後の手法ではこの誤差は大きい。
訳抜け防止モード: このエラーは Post-OCR メソッドではそれ以来大きい OCRエンジンは段落箱に合うように訓練されていない。
If we have line-level ground truth in each paragraph, and adjust IoU thresholds Tiou by 各段落にラインレベル基底真理があり、IoUしきい値がTiouを調整した場合 0.73
Tiou = min(1 − Tiou = min(1 − 0.85
1 1 + #lines 1 1 + #lines 0.85
, 0.95) (6) , 0.95) (6) 0.82
the single-line paragraph will have IoU threshold 0.5, the 5-line one will have IoU threshold 0.833, and both cases in Fig. 単行の段落は、IoUしきい値0.5、IoUしきい値0.833、Figのいずれの場合も、IoUしきい値0.5を有する。
訳抜け防止モード: 単行目はIoUしきい値0.5, 5行目はIoUしきい値0.833で、どちらの場合もFigである。
11 can be more reasonably scored. 11はもっと適度に得点できる。 0.80
Both PubLayNet [8] and our web synthetic set have line level ground truth to support this metric. PubLayNet [8] と Web 合成セットの両方に、このメトリックをサポートするためのラインレベルの真理があります。 0.68
For the human annotated set without line annotations, we fall back to a fixed IoU threshold of 0.5. ラインアノテーションのない人間の注釈付きセットの場合、固定IoUの0.5のしきい値に戻ります。 0.70
Precision/recall pairs of the two GCN models’ classification tasks 2つのGCNモデルの分類タスクの精度/リコールペア 0.82
during training with different datasets. 異なるデータセットでトレーニング中です 0.72
The β-skeleton graph is used for β-スケルトングラフが使われる 0.80
TABLE 2 all tasks. 表2 すべてのタスク。 0.66
10 Fig. 11. 10 フィギュア。 11. 0.71
Paragraph detection example from PubLayNet [8]. PubLayNet [8] からのパラグラフ検出例。 0.71
Red boxes are different from ground truth in terms of enclosed words. 赤い箱は、囲われた言葉の点では真実とは異なっている。 0.63
A single-line correct detection has lower IoU than a multi-line detection missing a line, necessitating variable IoU thresholds in evaluations. 単行補正検出は、ラインを欠いた複数行検出よりもIoUが低く、評価に可変IoUしきい値を必要とする。 0.74
Dataset Line start Line end データセット 始点 終点 0.45
Edge clustering エッジクラスタリング 0.73
PubLayNet 0.998/0.992 PubLayNet 0.998/0.992 0.57
0.992/0.990 0.992/0.990 0.29
0.994/0.997 0.994/0.997 0.29
Web synthetic 0.995/0.996 Web 合成 0.995/0.996 0.53
0.994/0.997 0.994/0.997 0.29
0.978/0.980 0.978/0.980 0.29
Augmented web synthetic Augmented Web Synthetic 0.79
Combined set 0.988/0.986 組み合わせ集合 0.988/0.986 0.52
0.990/0.987 0.990/0.987 0.29
0.958/0.966 0.958/0.966 0.29
Augmented web synthetic Human annotated Augmented Web synthetic Human Annotated 0.84
0.949/0.953 0.901/0.912 0.949/0.953 0.901/0.912 0.24
5.1.4 Baselines The 2-step GCN models are compared against image based models and the heuristic algorithm in our production system. 5.1.4 Baselines 2ステップGCNモデルは、イメージベースモデルと私たちの生産システムにおけるヒューリスティックアルゴリズムと比較される。
訳抜け防止モード: 5.1.4 ベースライン 2 ステップ gcn モデルとイメージベースモデルの比較 生産システムにおけるヒューリスティックなアルゴリズムです
The image models include Faster R-CNN and Mask RCNN used in [8], which work on the PubLayNet data with non-augmented images. 画像モデルには、[8]で使用されているFaster R-CNNとMask RCNNが含まれます。 0.66
For broader testing on augmented datasets, we train a Faster R-CNN model with an additional quadrilateral output to indicate rotated boxes, denoted by “F-RCNN-Q” in following subsections. 拡張データセットのより広範なテストのために、以下の節で「F-RCNN-Q」と表記される回転ボックスを示すために、追加の4次出力を持つより高速なR-CNNモデルを訓練する。 0.58
This model uses a ResNet-101 [34] backbone and is ∼200MB in size, smaller than the two models in [8] but still 3 orders of magnitude larger than the GCN models. このモデルは ResNet-101 [34] バックボーンを使用し、サイズは 200MB で、[8] の 2 つのモデルよりも小さいが、GCN モデルよりも 3 桁大きい。 0.78
For reference, the baseline heuristic algorithm takes the OCR recognized text lines as input and generates paragraphs by the following steps. 参考までに、ベースラインヒューリスティックアルゴリズムは、OCRが認識したテキスト行を入力として、以下のステップで段落を生成する。
訳抜け防止モード: 参考までに、ベースラインヒューリスティックアルゴリズムは、OCRが認識したテキスト行を入力として取り込む 以下のステップで段落を生成します
1. Within each line, find white spaces between words that are significantly wider than average, and split the line by these spaces into shorter lines. 1. 各行の中で、平均よりもかなり広い単語間の白い空間を見つけ、これらの空間によって線を短い線に分割する。 0.82
2. For each line, repeatedly cluster nearby lines into its block by a distance threshold, until no more proximate lines can be found. 2. それぞれの線について、近距離線が発見されるまで、近くの線を距離閾値でブロック内に繰り返し集める。 0.78
3. Within each block, merge lines that are roughly placed 3. 各ブロック内で,大まかに配置されたマージ線 0.82
in the same straight line. 4. Within each block, for each indented line, create a new 同じ直線で 4. 各ブロック内で、インデントされた行ごとに、新規に作成します。 0.62
paragraph. These rule-based steps were intended to handle multicolumn text pages, but the fixed hand-tuned parameters make it inflexible at style variations. 段落。 これらのルールベースのステップは、マルチカラムテキストページを処理することを意図していたが、固定された手調整パラメータは、スタイルバリエーションで柔軟性がない。 0.55
Replacing them with machine learned GCN models as proposed here can greatly enhance the algorithm’s performance and adaptivity. ここで提案した機械学習GCNモデルで置き換えることで、アルゴリズムのパフォーマンスと適応性が大幅に向上します。 0.78
5.2 GCN Classification Accuracies We first check the metrics of the GCN classification tasks on various training sets. 5.2 GCN分類精度 まず、様々なトレーニングセットでGCN分類タスクのメトリクスを確認します。 0.82
Precision and recall scores of the binary classification tasks are shown in Table 2. 2進分類タスクの精度とリコールスコアを表2に示す。 0.65
The PubLayNet data is not applied with data augmentation because of the low resolution of its images, while the web synthetic data is tried with and without data augmentation. PubLayNetデータは画像の低解像度のためデータ拡張には適用されないが、Web合成データはデータ拡張なしで試される。 0.72
The human annotated training set is added to train the line clustering GCN model, but not the line splitting model because it lacks dense, multi-column text pages. human annotated training setは、ラインクラスタリングgcnモデルをトレーニングするために追加されるが、密度の高いマルチカラムテキストページが欠けているため、ライン分割モデルではない。 0.76
Therefore, only the line clustering scores are shown for the combined set in Table 2. したがって、表2の組合せ集合に対して、ラインクラスタリングスコアのみを表示する。 0.80
The scores on the annotated set are significantly lower because of the diverse and noisy nature of the data source. 注釈付きセットのスコアは、データソースの多様でノイズの多い性質のため、大幅に低くなります。 0.64
Precision/recall pairs of the line splitting model using different types of graphs on the augmented web synthetic set. 拡張web合成集合上の異なる種類のグラフを用いた線分割モデルの精度/リコールペア。 0.86
Both average pooling and attention weighted pooling are tested for message aggregation in graph 平均プールと注目重み付きプールはグラフにおけるメッセージアグリゲーションのために試験される 0.71
TABLE 3 convolutions. Graph type 表3 進化。 グラフ型 0.60
Pooling method Line start Line end プール方式 始点 終点 0.46
β-skeleton Line-of-sight Axis-aligned line-of-sight βスケルトン 視線 軸方向の視線 0.54
Average Attention Average Attention 平均的注意 平均的注意 0.76
Average Attention 0.982/0.978 0.988/0.986 平均的注意 0.982/0.978 0.988/0.986 0.50
0.981/0.978 0.990/0.987 0.981/0.978 0.990/0.987 0.24
0.983/0.985 0.983/0.985 0.29
-/- 0.984/0.988 -/- 0.984/0.988 0.57
-/- 0.972/0.974 0.973/0.973 -/- 0.972/0.974 0.973/0.973 0.54
0.970/0.971 0.964/0.978 0.970/0.971 0.964/0.978 0.24
We also compare the β-skeleton graph with the two types of “line-of-sight” graphs in Fig. また、β-スケルトングラフとFigの2種類の「視線」グラフを比較します。 0.76
4. Since the edges are very different among these graphs, Table 3 only compares node classification scores trained on the augmented web synthetic set. 4. エッジは非常に異なるため、テーブル3は強化されたWeb合成セットでトレーニングされたノード分類スコアのみを比較する。 0.81
When average pooling is used in graph convolutions, the free “line-of-sight” graph in Fig. グラフ畳み込みで平均プーリングを使用する場合、図中のフリーの「視線」グラフが使用されます。 0.71
4(a) achieves the best scores. 4(a)は最高のスコアを得る。 0.75
However, the O(n2) size of the graph scales poorly and causes out-of-memory errors when training with attention weighted pooling within our environment. しかしながら、グラフのO(n2)サイズはスケールが悪く、私たちの環境における注意重み付きプールのトレーニング時にメモリ外エラーを引き起こす。 0.71
In practical use, β-skeleton graph appears to yield the best results for our purpose. 実用上、β-骨格グラフは、我々の目的に最適な結果をもたらすように見える。 0.66
5.3 PubLayNet Evaluations The PubLayNet dataset has five types of layout elements: text, title, list, figure and table. 5.3 PubLayNet Evaluations PubLayNetデータセットには、テキスト、タイトル、リスト、図形、テーブルの5種類のレイアウト要素がある。 0.79
For our task, we take text and title bounding boxes as paragraph ground truth, and set all other types as “don’t-care” for both training and testing. 私たちのタスクでは、テキストとタイトルのバウンディングボックスを段落の真理として捉え、他のすべてのタイプをトレーニングとテストの両方に“注意するな”とします。 0.71
Table 4 shows that F-RCNN-Q matches the mAP scores in [8]. 表4は、F-RCNN-Qが[8]のmAPスコアと一致することを示している。 0.50
The GCN models are worse in this metric because there is only one point in the precision-recall curve, and the OCR engine is not trained to produce bounding boxes that match the ground truth. GCNモデルは精度リコール曲線に1つの点しかなく、OCRエンジンは地上の真理に一致するバウンディングボックスを生成するように訓練されていないため、このメトリックではより悪い。 0.75
In the bottom row of Table 4, “OCR + Ground Truth” is computed by clustering OCR words into paragraphs based on ground truth boxes, which is the upper bound for all post-OCR methods. 表4の一番下段では、OCR後のすべてのメソッドの上限である接地真理ボックスに基づいて、OCR単語を段落にクラスタリングすることで、"OCR + Ground Truth" が計算される。 0.72
For mAP scores, even the upper bound is lower than the scores of image based models. mAPスコアの場合、上界でさえ、画像ベースのモデルのスコアよりも低い。 0.57
However, if we measure by F1var scores defined in subsection 5.1.3, OCR + GCNs can match image based models with a slight advantage. しかし、第5.1.3節で定義されたF1varスコアで測定すると、OCR + GCNsは画像ベースモデルと少しの利点がある。 0.56
The high F1var score on “OCR + Ground Truth” also shows that the OCR engine we use has a very high recall on text detection. OCR + Ground Truth」の高いF1varスコアは、私たちが使用するOCRエンジンがテキスト検出に非常に高いリコールを持っていることも示しています。 0.68
The reason it is lower than 1 is mostly 1より低い理由は、大半である。 0.74
IoU 0.721IoU 0.782 IoU 0.721IoU 0.782 0.52
11 (a) (b) 11 (a) (b) 0.85
(c) (d) Fig. (c) (d) フィギュア。 0.71
12. Representative PubLayNet examples of paragraphs by OCR followed by GCN line splitting and line clustering. 12. OCRによる段落の代表的なPubLayNet例とGCNライン分割とラインクラスタリング。 0.81
(a) (b) (c) (a) (b) (c) 0.85
(d) Fig. (d) フィギュア。 0.64
13. Paragraph errors in PubLayNet examples caused by various types of failures including OCR detection, line splitting and line clustering. 13. PubLayNetのパラグラフエラーは、OCR検出、線分割、線クラスタリングなど、さまざまなタイプの障害によって引き起こされる。 0.73
(a) Under splitting. (a) 分割される。 0.76
(b) Over splitting. (b) 分割オーバー。 0.72
(c) Clustering errors for normal text and math equations. (c) 通常のテキストおよび数学方程式のクラスタリングエラー。 0.82
(d) Clustering error across table boundary line. (d) テーブル境界線を越えたクラスタリングエラー。 0.84
Paragraph mAP@IoU[.50:.95] score and F1var comparison on the PubLayNet development set. PubLayNet開発セットにおけるmAP@IoU[.50:.95]スコアとF1varの比較。 0.80
Numbers in the first 2 rows are from [8]. 最初の2行の数字は [8] からです。 0.72
TABLE 4 Model F-RCNN [8] 表4 モデル F-RCNN [8] 0.76
Tesseract [13] テッセラクト[13] 0.65
OCR + Heuristic OCR + ヒューリスティック 0.79
Training Set PubLayNet training 訓練セット PubLayNetトレーニング 0.79
PubLayNet training PubLayNetトレーニング 0.80
PubLayNet training PubLayNetトレーニング 0.80
- - OCR + GCNs - - OCR + GCN 0.85
Augmented web synthetic Augmented Web Synthetic 0.79
OCR + GCNs PubLayNet training OCR + GCN PubLayNetトレーニング 0.82
OCR + Ground Truth OCR + Ground Truth 0.85
- mAP 0.910 - mAP 0.910 0.76
0.916 0.914 0.916 0.914 0.59
0.571 0.302 0.571 0.302 0.59
0.748 0.842 0.748 0.842 0.59
0.892 F1var 0.892 F1var 0.59
- - 0.945 0.707 - - 0.945 0.707 0.72
0.364 0.867 0.364 0.867 0.59
0.959 0.997 0.959 0.997 0.59
from ground truth variations – a small fraction of singleline paragraphs have IoU lower than 0.5. 基底真理の変動から – 単行パラグラフのごく一部は、IoUが0.5より低い。 0.66
Fig. 12 shows some GCN produced examples where all the paragraphs are correctly identified. フィギュア。 12は、すべての段落が正しく識別されるGCN生成例を示しています。 0.53
Errors made by the GCN models (or the OCR engine) are shown in Fig. gcnモデル(またはocrエンジン)によるエラーは、図に示されています。 0.71
13 with four examples: a. Under splitting – the top line (marked red) should have been split into two. 13例,4例:a。 分割の下で - トップライン(マーク赤)は2つに分割されるべきでした。 0.79
This usually causes large IoU drop これは通常大きなIoU降下を引き起こす 0.77
and cannot be recovered by line clustering. ラインクラスタリングでは回復できません。 0.56
b. Over splitting. bだ 分割オーバー。 0.70
c. Clustering errors among text lines, and also on a math c.テキスト行間のエラーのクラスタリング及び数学上のエラー 0.74
equation together with detection errors. 検出の間違いとともに方程式。 0.61
d. A table annotation is clustered with a table cell across a boundary line, because our models do not take image features and ignore non-text lines. d. テーブルアノテーションはバウンダリラインにまたがるテーブルセルでクラスタ化されます。なぜなら私たちのモデルは画像の特徴をとらず、テキスト以外の行を無視しないからです。 0.62
5.4 Synthetic Dataset Evaluations 5.4 合成データセットの評価 0.59
The synthetic dataset from web scraping can give a more difficult test for these models by its aggressive style variations. Webスクレイピングの合成データセットは、アグレッシブなスタイルのバリエーションによって、これらのモデルのより難しいテストを提供することができる。 0.61
In Table 5, we can see the F1var score of the image based F-RCNN-Q model decreases sharply as the task difficulty increases. 表5では、画像ベースのF-RCNN-QモデルのF1varスコアがタスクの難易度が増加するにつれて急激に低下します。 0.61
At the synthetic dataset where the images are augmented with rotations and projections as in Fig. 画像が図のように回転と投影で拡張されている合成データセットで。 0.70
10, detection is essentially broken, not only from non-max suppression drops shown in Fig. 図10に示す最大でない抑制低下だけでなく、検出は本質的に壊れています。 0.67
2, but also from much worse box predictions. しかし、さらに悪いボックス予測からも。 0.48
In contrast, the GCN models are much less affected by data augmentations and layout style variations. 対照的に、GCNモデルはデータ拡張やレイアウトスタイルの変化による影響がはるかに少ない。 0.76
Especially between augmented and non-augmented datasets, the F1var score change is minimal. 特に拡張データセットと非拡張データセットでは、f1varスコアの変更は最小限である。 0.42
So GCN models will have greater advantage when input images are non axis-aligned. そのため、入力画像が非軸アライメントの場合、GCNモデルに大きな利点があります。 0.62
12 Fig. 14. 12 フィギュア。 14. 0.71
Representative examples of real-world images with OCR followed by GCN line splitting and line clustering. OCRによる実世界のイメージの代表的な例とGCNライン分割とラインクラスタリングが続きます。 0.70
Blue boxes: words; green boxes: lines; yellow boxes: paragraphs; pink line segments: positive line clustering predictions. 青い箱:単語;緑の箱:ライン;黄色い箱:段落;ピンクのライン セグメント:肯定的なライン クラスタリングの予測。 0.77
(a) (b) (c) (a) (b) (c) 0.85
Fig. 15. フィギュア。 15. 0.64
Paragraph errors in real-word images. 実単語画像におけるパラグラフ誤差 0.67
(a) Under splitting. (a) 分割される。 0.76
(b) Over splitting. (b) 分割オーバー。 0.72
(c) Over clustering table elements. (c) テーブル要素をクラスタリングする。 0.84
(a) (b) (c) (a) (b) (c) 0.85
Paragraph F1var score comparison across different types of models パラグラフF1var 異なるモデル間のスコア比較 0.79
TABLE 5 and datasets. 表5 データセットも 0.60
Model Training/Testing Set モデル トレーニング/テストセット 0.72
F-RCNN-Q PubLayNet training/dev F-RCNN-Q PubLayNetのトレーニング/デバッグ 0.44
Web synthetic Augmented web synthetic Web 合成 Augmented Web Synthetic 0.78
OCR + GCNs PubLayNet training/dev OCR + GCN PubLayNetのトレーニング/デバッグ 0.67
Web synthetic Augmented web synthetic Web 合成 Augmented Web Synthetic 0.78
F1var 0.945 F1var 0.945 0.59
0.722 0.547 0.722 0.547 0.59
0.959 0.830 0.959 0.830 0.59
0.827 5.5 Real-World Dataset Evaluations The human annotated dataset can potentially show the models’ performance in real-world applications. 0.827 5.5 real-world dataset evaluations human annotated datasetは、現実世界のアプリケーションでモデルのパフォーマンスを示す可能性がある。 0.66
Since the annotated set is relatively small, the F-RCNN-Q model needs to be pre-trained on other paragraph sets, while the GCN models are small enough that the line clustering model can be trained entirely on the paragraph annotations. 注釈付きセットは比較的小さいため、F-RCNN-Qモデルは他の段落セットで事前訓練する必要があるが、GCNモデルは行クラスタリングモデルを完全に段落アノテーションでトレーニングできるほど小さい。 0.80
Evaluation metric for this set is F1-score with a fixed IoU threshold of 0.5. このセットの評価指標は固定IoUのしきい値0.5のF1スコアです。 0.72
Table 6 shows comparisons across different models and different training sets. 表6は異なるモデルと異なるトレーニングセットを比較します。 0.82
All the models should handle image rotations and perspective transformations, so we only compare models trained on the augmented web synthetic set or the human annotated set. すべてのモデルはイメージローテーションとパースペクティブ変換を扱うべきなので、拡張ウェブ合成セットまたは人間の注釈付きセットでトレーニングされたモデルを比較するだけです。 0.74
First, we can see that Faster RCNN trained from synthetic web rendered pages does not work at all for real-world images, whereas the GCN models まず、合成Webレンダリングされたページから訓練された高速RCNNは、実際の画像ではまったく機能しないことがわかります。
訳抜け防止モード: まず、合成Webレンダリングページからトレーニングされたより高速なRCNNは、実世界の画像ではまったく機能しない。 一方GCNモデルは
Paragraph F1-scores tested on the real-world test set with paragraph annotations. 段落アノテーションで実世界のテストセットでテストされたf1-スコア。 0.53
Fixed IoU threshold 0.5 is used since there is no line-level ラインレベルがないため、固定IoUしきい値0.5が使用される 0.67
ground truth to support variable thresholds. 可変しきい値をサポートするための根拠真理。 0.60
TABLE 6 Training Data 表6 トレーニングデータ 0.74
F1@IoU0.5 Augmented web synthetic F1@IoU0.5 Augmented Web Synthetic 0.69
Annotated data (pre-trained on PubLayNet) アノテーション付きデータ(PubLayNetで事前トレーニング) 0.71
Model F-RCNN-Q モデル F-RCNN-Q 0.59
OCR + Heuristic OCR + ヒューリスティック 0.79
- OCR + GCNs - OCR + GCN 0.85
Augmented web synthetic Augmented Web Synthetic 0.79
OCR + Ground Truth OCR + Ground Truth 0.85
- Annotated data Combined set - 注釈付きデータ 組み合わせ集合 0.80
0.030 0.607 0.030 0.607 0.59
0.602 0.614 0.602 0.614 0.59
0.671 0.671 0.671 0.671 0.59
0.960 can generalize well from synthetic training data. 0.960 人工的な訓練データから うまく一般化できます 0.60
Also note that most of the annotated images are nearly axis-aligned, so the GCN models will yield even greater advantage if the images are rotated or taken with varied camera angles. また、アノテートされた画像のほとんどはほぼ軸直線であるため、GCNモデルは、画像が回転またはさまざまなカメラアングルで撮影された場合、さらに大きな利点をもたらすことに注意してください。 0.60
Fig. 14 and Fig. フィギュア。 14 と fig。 0.55
15 show six examples of OCR + GCNs produced paragraphs. 15はOCR+GCNの6つの例を示す。 0.78
The successful examples in Fig. 14 are all difficult cases for heuristic and detection based approaches but are handled well by the GCN models. 図で成功した例。 ヒューリスティックおよび検出に基づくアプローチでは,いずれも難しいケースだが,GCNモデルではうまく処理できる。 0.77
The image on the right shows the effectiveness of training with augmented web synthetic data, as there are no similar images in the annotated set. 右の画像は、アノテーションセットに類似した画像がないため、強化されたWeb合成データによるトレーニングの有効性を示す。 0.82
Error examples produced by GCN are shown in Fig. GCNが生成したエラー例を図に示します。 0.70
15: 15: 0.85
F1@IoU0.5 scores tested on the multi-language evaluation set. 多言語評価セットでテストされたf1@iou0.5スコア。 0.57
TABLE 7 OCR + Language Heuristic 表7 OCR+言語ヒューリスティック 0.72
-Q OCR + Ground Truth -Q OCR+ 地上真理 0.76
English French German 英語 フランス語 ドイツ語 0.72
Italian Spanish イタリア スペイン語 0.70
Chinese Japanese Korean 0.429 中国 日本人 朝鮮 0.429 0.62
0.438 0.427 0.438 0.427 0.59
0.455 0.449 0.455 0.449 0.59
0.370 0.398 0.370 0.398 0.59
0.400 0.513 0.400 0.513 0.59
0.557 0.538 0.557 0.538 0.59
0.545 0.597 0.545 0.597 0.59
- - - 0.544 - - - 0.544 0.78
0.553 0.566 0.553 0.566 0.59
0.556 0.616 0.556 0.616 0.59
0.485 0.487 0.485 0.487 0.59
0.547 0.890 0.547 0.890 0.59
0.885 0.873 0.885 0.873 0.59
0.862 0.885 0.862 0.885 0.59
0.790 0.772 0.790 0.772 0.59
0.807 a. Under splitting: the caption under the top-right picture is not split from the paragraph on the left, causing downstream errors. 0.807 A. 分割の下で:右上図の下のキャプションは左の段落から分割されず、下流のエラーを引き起こします。 0.70
b. Over splitting: two lines in the middle are mistakenly split, but the short line segments are then clustered back into the same paragraph, resulting in a correct final output. bだ 分割オーバー:中央の2行が誤って分割されますが、短い行のセグメントが同じ段落にクラスタ化され、正しい最終的な出力になります。 0.76
c. Over clustering table elements: since tables are “don’tcare” regions in the training data, the GCN models trained with paragraph data may take table elements as sparse text lines and incorrectly cluster them together. c. クラスタリングテーブル要素: テーブルはトレーニングデータに“注意しない”領域であるため、段落データでトレーニングされたGCNモデルは、テーブル要素をスパーステキストラインとして取り、それらを正しくクラスタリングする。 0.80
A table detector may help to filter out these lines for paragraphs. テーブル検出器は、段落のこれらの線をフィルタリングするのに役立ちます。 0.58
To verify the robustness of the GCN models for language and script diversity, we test them on a multi-language evaluation set. 言語とスクリプトの多様性に関するGCNモデルのロバスト性を検証するため,多言語評価セットで検証を行った。 0.83
The models are trained with both synthetic and human annotated data in English, and additional synthetic data from Wikipedia pages in Chinese, Japanese and Korean. モデルは、英語の合成データと人間の注釈データの両方と、中国語、日本語、韓国語のwikipediaページからの合成データの両方で訓練される。 0.73
No other Latin language data is needed as the English data is sufficient to represent the layout styles. 英語のデータがレイアウトスタイルを表現するのに十分なので、他のラテン文字のデータは必要ない。 0.71
Table 7 shows the F1-scores across multiple languages. 表7は複数の言語にわたるF1スコアを示している。 0.58
F-RCNN-Q is not evaluated for the three Asian languages, because we don’t have suitable training data, and Table 6 indicates that synthetic training data is not useful for this model. F-RCNN-Qは、適切なトレーニングデータを持っていないため、3つのアジア言語では評価されておらず、表6は、合成トレーニングデータがこのモデルには役に立たないことを示しています。 0.63
The GCN models produce best results in almost all the languages tried, once again showing good generalizability. GCNモデルは、ほぼすべての言語で最高の結果をもたらし、再び良好な一般化性を示しています。 0.69
The GCN models are also flexible in handling text lines written in vertical directions, which are common in Japanese and Chinese, and also appear in Korean. GCNモデルは、日本語や中国語で一般的で、韓国語でも見られる垂直方向のテキスト行を扱う際にも柔軟である。 0.73
Although we don’t have much training data with vertical lines, the bounding box structures of lines and symbols in these languages remain the same when the lines are written vertically, as if they were written horizontally while the image is rotated clockwise by 90 degrees. 垂直線でのトレーニングデータはあまりありませんが、画像が時計回りに90度回転している間に水平線が水平線で書かれているように、これらの言語における線やシンボルのバウンディングボックス構造は、垂直線で書かれている場合と同じです。 0.73
Fig. 16 shows such an example. フィギュア。 16がその例を示している。 0.55
Since our models are trained to handle all rotation angles, such paragraphs can be correctly identified. 我々のモデルは全ての回転角を扱うように訓練されているので、そのような段落を正しく識別することができる。 0.54
6 CONCLUSIONS AND FUTURE WORK We demonstrate that GCN models can be powerful and efficient for the task of paragraph estimation. 6 ConClusions and Future WORK We demonstrate that GCN models can be powerful and efficient for the task of paragraph Estimation。 0.78
Provided with a good OCR engine, they can match image based models with 優れたocrエンジンを備えることで、画像ベースのモデルとマッチングできる 0.73
13 Fig. 16. 13 フィギュア。 16. 0.71
Example of paragraphs from text lines with vertical writing direction. 縦書き方向のテキスト行からの段落の例。 0.68
much lower requirement on training data and computation resources, and significantly beat them on non-axis-aligned inputs with complex layout styles. トレーニングデータと計算リソースの要件はずっと低く、複雑なレイアウトスタイルを持つ非軸指向入力では著しく上回っている。 0.73
The graph convolutions in these models give them unique advantages in dealing with different levels of page elements and their relations. これらのモデルのグラフ畳み込みは、ページ要素の異なるレベルとその関係を扱うのにユニークな利点を与えます。 0.78
Future work includes model performance improvement through both training data and model architectures. 今後の作業には、トレーニングデータとモデルアーキテクチャの両方によるモデルパフォーマンスの改善が含まれる。 0.65
Training data can be made more realistic by tuning the web scraping pipeline and adding more complex degradation transformations such as wrinkling effects on document pages. トレーニングデータは、webスクレイピングパイプラインをチューニングし、文書ページにくすぶる効果など、より複雑な分解変換を追加することで、よりリアルにすることができる。 0.67
Also, alternative model architectures and graph structures mentioned in subsection 3.5 may improve quality and performance. また、第3.5条で述べた代替モデルアーキテクチャとグラフ構造は、品質と性能を改善する可能性がある。 0.56
Another aspect of the future work is to extend the GCN models’ capability to identify more types of entities and extract document structural information such as reading order. 将来の作業のもう1つの側面は、より多くの種類のエンティティを識別し、読み込み順序などのドキュメント構造情報を抽出するgcnモデルの能力を拡張することである。 0.68
Some entities like titles and list items are similar to paragraphs, while some others like tables and document sections are not straightforward to handle with our proposed models. タイトルやリストアイテムのようなエンティティは段落と似ているが、テーブルやドキュメントセクションのようなエンティティは、提案したモデルを簡単に扱えるわけではない。 0.68
Image based CNNs may be needed with their outputs used as node or edge features in the GCN model, so that non-text components in the document (e.g. 画像ベースのCNNは、出力がGCNモデルのノードまたはエッジの特徴として使用されるため、文書内の非テキストコンポーネント(例)が必要とされる。 0.76
checkboxes, table grid lines) can be captured. チェックボックス、テーブルグリッドライン)をキャプチャできます。 0.69
In addition, reading order among entities is a necessary step if we want to identify semantic paragraphs that span across multiple columns/pages. さらに、複数の列/ページにまたがるセマンティックなパラグラフを特定する場合、エンティティ間の読み順は必要なステップです。 0.75
ACKNOWLEDGMENTS The authors would like to thank Chen-Yu Lee, Chun-Liang Li, Michalis Raptis, Sandeep Tata and Siyang Qin for their helpful reviews and feedback, and to thank Alessandro Bissacco, Hartwig Adam and Jake Walker for their general leadership support in the overall project effort. 著者は、Chen-Yu Lee、Chun-Liang Li、Michalis Raptis、Sandeep Tata、Siyang Qinに彼らの有益なレビューとフィードバックに感謝し、Alessandro Bissacco、Hartwig Adam、Jake Walkerにプロジェクト全体における一般的なリーダーシップサポートに感謝します。 0.75
REFERENCES [1] W. Horak, “Office document architecture and office document interchange formats: Current status of international standardization,” Computer, vol. 参考 [1] W. Horak, “Office Document Architecture and Office Document Exchange formats: current status of international standardization”, Computer, vol. 0.65
18, pp. 50–60, October 1985. 18, pp。 1985年10月50~60日。 0.66
[2] R. Cattoni, T. Coianiz, S. Messelodi, and C. M. Modena, “Geometric layout analysis techniques for document image understanding: A review,” IRST, Trento, Italy, Tech. [2] R. Cattoni, T. Coianiz, S. Messelodi, C. M. Modena, “Geometric layout analysis techniques for document image understanding: A review”, IRST, Trento, Italy, Tech. 関連記事。 0.95
Rep. 9703-09, 1998. 9703-09年、1998年。 0.62
[3] X. Yang, E. Yumer, P. Asente, M. Kraley, D. Kifer, and C. L. Giles, “Learning to extract semantic structure from documents using multimodal fully convolutional neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. [3] x. yang, e. yumer, p. asente, m. kraley, d. kifer, c. l. giles, “learning to extract semantic structure from documents using multimodal complete convolutional neural networks” in ieee conference on computer vision and pattern recognition (cvpr), 2017” (英語) 0.84
[4] D. Niyogi and S. N. Srihari, “A rule-based system for document understanding,” in Proceedings of the Fifth AAAI National Conference on Artificial Intelligence, ser. 4] D. NiyogiとS. N. Srihariは、第5回人工知能に関するAAAI全国会議の進行の中で、「文書理解のためのルールベースのシステム」です。 0.72
AAAI’86. AAAI Press, 1986, p. 789–793. AAAI'86。 AAAI Press, 1986, p. 789-793。 0.81
S. N. Srihari and G. W. Zack, “Document image analysis,” in Proceedings of the 8th International Conference on Pattern Recognition. S. N. Srihari, G. W. Zack, “Document image analysis” in Proceedings of the 8th International Conference on Pattern Recognition。 0.92
AAAI Press, 1986, p. 434–436. AAAI Press, 1986, p. 434–436。 0.84
[5] [6] T. M. Breuel, “High performance document layout analysis,” in Proceedings of the Symposium on Document Image Understanding Technology, Greenbelt, MD, 2003, pp. [5] 6] T.M. Breuel, "High performance document layout analysis" in Proceedings of the Symposium on Document Image Understanding Technology, Greenbelt, MD, 2003, pp。
訳抜け防止モード: [5] T.M. Breuel, “High Performance document layout analysis”[6]T.M. Breuel. In Proceedings of the Symposium on Document Image Understanding Technology, Greenbelt, MD, 2003,pp.
209–218. [7] R. W. Smith, “Hybrid page layout analysis via tab-stop detection,” in 10th International Conference on Document Analysis and Recognition, ICDAR 2009, Barcelona, Spain, 26-29 July 2009. 209–218. 7] r. w. smith, “hybrid page layout analysis via tab-stop detection” in 10th international conference on document analysis and recognition, icdar 2009 barcelona, spain, 2009年7月26-29日 0.79
IEEE Computer Society, 2009, pp. IEEE Computer Society, 2009 pp。 0.69
241–245. [Online]. 241–245. [オンライン] 0.69
Available: https://doi.org/10.1 109/ICDAR.2009.257 利用可能: https://doi.org/10.1 109/ICDAR.2009.257 0.31
[8] X. Zhong, [8]X.Zhong, 0.86
J. Tang, ever “Publaynet: in Largest dataset and 2019 ICDAR 2019, Sydney, Australia, September 20Recognition, 25, 2019. J.Tang。 Publaynet: 最大のデータセットと2019 ICDAR 2019, Sydney, Australia, September 20Recognition, 25, 2019。 0.67
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
1015–1022. 1015–1022. 0.71
[Online]. Available: https://doi.org/10.1 109/ICDAR.2019.00166 [オンライン] 利用可能: https://doi.org/10.1 109/ICDAR.2019.00166 0.49
and A. for document on Document Analysis と A は文書です 文書分析について 0.74
International Conference Jimeno-Yepes, 国際会議 Jimeno-Yepes 0.76
analysis,” layout 分析」。 レイアウト 0.71
[9] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural network model,” IEEE Transactions on Neural Networks, vol. 9] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, G. Monfardini, “グラフニューラルネットワークモデル”, IEEE Transactions on Neural Networks, vol。 0.86
20, no. 1, pp. 20、いいえ。 1、p。 0.70
61–80, 2009. 61–80, 2009. 0.84
[10] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and P. S. Yu, “A comprehensive survey on graph neural networks,” IEEE Transactions on Neural Networks and Learning Systems, pp. 10] z. wu, s. pan, f. chen, g. long, c. zhang, p.s. yu, “a comprehensive survey on graph neural networks”, ieee transactions on neural networks and learning systems, pp. 0.82
1–21, 2020. 1–21, 2020. 0.84
[11] D. G. Kirkpatrick and J. D. Radke, “A framework for Intelligence and Pattern [Online]. 11] D.G. KirkpatrickとJ.D. Radkeは、「知性とパターンのためのフレームワーク [オンライン]。 0.77
Available: computational morphology,” Machine Recognition, vol. 利用可能。 計算形態学(computational morphology)”, machine recognition, vol。 0.62
2, pp. 217–248, 1985. https://doi.org/10.1 016/B978-0-444-87806 -9.50013-X 2、p。 217–248, 1985. https://doi.org/10.1 016/B978-0-444-87806 -9.50013-X 0.44
[12] “Wikipedia, the free encyclopedia.” [Online]. 12] “Wikipedia, the free encyclopedia.” [Online] 0.75
Available: https:// 利用可能: https:// 0.77
en.wikipeida.org en.wikipeida.org 0.39
[13] R. Smith, “An overview of the Tesseract OCR engine,” in Proc. Proc. [13] R. Smith, “An overview of the Tesseract OCR engine”. Proc. 0.89
9th IEEE Intl. 9th IEEE Intl。 0.94
Conf. on Document Analysis and Recognition (ICDAR), 2007, pp. Conf on Document Analysis and Recognition (ICDAR), 2007 pp。 0.59
629–633. [14] P. Riba, A. Dutta, L. Goldmann, A. Forn´es, O. R. Terrades, and J. Llad´os, “Table detection in invoice documents by graph neural networks,” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019. 629–633. P. Riba, A. Dutta, L. Goldmann, A. Forn ́es, O. R. Terrades, J. Llad ́os, “Table detection in invoice document by graph neural network” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019”. 2019年9月20日閲覧。 0.78
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
122–127. [Online]. 122–127. [オンライン] 0.69
Available: https://doi.org/10.1 109/ICDAR.2019.00028 利用可能: https://doi.org/10.1 109/ICDAR.2019.00028 0.31
[15] T. M. Breuel, “An algorithm for finding maximal whitespace rectangles at arbitrary orientations for document layout analysis,” in Seventh International Conference on Document Analysis and Recognition, 2003. 2003年の第7回国際文書分析認識会議において、T.M.ブレエルは「文書レイアウト解析のための任意の方向における最大空白長方形を見つけるためのアルゴリズム」と評した。
訳抜け防止モード: 15 ] T.M. Breuel, “文書レイアウト解析のための任意の向きで最大空白長方形を見つけるためのアルゴリズム”。 第7回国際文書分析認識会議、2003年。
Proceedings., 2003, pp. Proceedings., 2003, pp。 0.80
66–70 vol.1. [16] S. Ren, K. He, R. B. Girshick, 66-70巻。 16] S. Ren, K. He, R. B. Girshick, 0.70
R-CNN: proposal networks,” IEEE Trans. R-CNN: 提案ネットワーク”とIEEE Trans。 0.81
Pattern Anal. Mach. パターンアナル。 Mach 0.54
vol. 39, no. Vol. 39位、ノー。 0.75
6, pp. 1137–1149, 2017. https://doi.org/10.1 109/TPAMI.2016.25770 31 6, pp。 1137–1149, 2017 https://doi.org/10.1 109/TPAMI.2016.25770 31 0.57
“Faster real-time object detection with region Intell., [Online]. 領域インテラによる高速リアルタイムオブジェクト検出 [オンライン] 0.68
Available: towards and J. 利用可能。 へ そしてJ。 0.58
Sun, [17] K. He, G. Gkioxari, P. Doll´ar, 太陽。 17] K. He, G. Gkioxari, P. Doll ́ar, 0.74
“Mask R-CNN,” IEEE Trans. IEEE Trans, “Mask R-CNN”。 0.87
Pattern Anal. Mach. パターンアナル。 Mach 0.54
vol. https://doi.org/10.1 109/TPAMI.2018.28441 75 Vol. https://doi.org/10.1 109/TPAMI.2018.28441 75 0.47
386–397, 42, no. 386–397, 42、ノー。 0.73
2, pp. 2020. 2、p。 2020. 0.74
and R. B. Girshick, Intell., [Online]. そして R. B. Girshick, Intell., [Online]. 0.90
Available: [18] Y. Jiang, X. Zhu, X. Wang, S. Yang, W. Li, H. Wang, P. Fu, and Z. Luo, “R2 cnn: Rotational region cnn for arbitrarily-oriented scene text detection,” in 2018 24th International Conference on Pattern Recognition (ICPR), 2018, pp. 利用可能。 Y. Jiang, X. Zhu, X. Wang, S. Yang, W. Li, H. Wang, P. Fu, Z. Luo, “R2 cnn: Rotational region cnn for arbitrarily-oriented scene text detection” 2018th International Conference on Pattern Recognition (ICPR), 2018, pp. 0.67
3610–3615. 3610–3615. 0.71
[19] J. Lee, H. Hayashi, W. Ohyama, and S. Uchida, “Page segmentation using a convolutional neural network with trainable co-occurrence features,” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019. J. Lee, H. Hayashi, W. Oyama, S. Uchida, “Page segmentation using a convolutional neural network with trainable co-occurrence features” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019”. 2019年9月20日閲覧。 0.90
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
1023–1028. 1023–1028. 0.71
[Online]. Available: https://doi.org/10.1 109/ICDAR.2019.00167 [オンライン] 利用可能: https://doi.org/10.1 109/ICDAR.2019.00167 0.49
[20] A. L. L. M. Maia, F. D. Julca-Aguilar, and N. S. T. Hirata, “A machine learning approach for graph-based page segmentation,” in 31st SIBGRAPI Conference on Graphics, Patterns and Images, SIBGRAPI 2018, Paran´a, Brazil, October 29 - Nov. 1, 2018. A. L. L. L. M. Maia, F. D. Julca-Aguilar, N. S. T.hirata, “A machine learning approach for graph-based page segmentation” in 31st SIBGRAPI Conference on Graphics, Patterns and Images, SIBGRAPI 2018, Paran ́a, Brazil, October 29 - 11月1日). 0.90
IEEE Computer Society, 2018, pp. IEEE Computer Society, 2018, pp。 0.81
424–431. [Online]. 424–431. [オンライン] 0.69
Available: https://doi.org/10.1 109/SIBGRAPI.2018.00 061 https://doi.org/10.1 109/SIBGRAPI.2018.00 061 0.34
[21] Y. Fujii, K. Driesen, [21]Y. Fujii,K. Driesen, 0.93
J. Baccash, A. Hurst, and A. C. Popat, “Sequence-to-label script identification for multilingual OCR,” in 14th IAPR International Conference on Document Analysis and Recognition, ICDAR 2017, Kyoto, Japan, November 9-15, 2017. J. Baccash, A. Hurst, and A. C. Popat, “Sequence-to-label script Identification for multilingual OCR” in 14th IAPR International Conference on Document Analysis and Recognition, ICDAR 2017 Kyoto, Japan, November 9-15, 2017 0.98
[Online]. Available: https://doi.org/10.1 109/ICDAR.2017.35 [オンライン] 利用可能: https://doi.org/10.1 109/ICDAR.2017.35 0.49
IEEE, 2017, pp. IEEE、2017 pp。 0.65
161–168. 14 161–168. 14 0.78
[22] B. L. Davis, B. S. Morse, S. Cohen, B. L. Price, and C. Tensmeyer, “Deep visual template-free form parsing,” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019. 22] B.L. Davis, B.S. Morse, S. Cohen, B.L. Price, C. Tensmeyer, "Deep visual template-free form parsing" 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019。 0.94
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
134–141. [Online]. 134–141. [オンライン] 0.69
Available: https://doi.org/10.1 109/ICDAR.2019.00030 利用可能: https://doi.org/10.1 109/ICDAR.2019.00030 0.31
[23] M. d. Berg, O. Cheong, M. v. Kreveld, and M. Overmars, ComputaSanta Clara, [23]M. d. Berg, O. Cheong, M. v. Kreveld, M. Overmars, ComputaSanta Clara 0.94
tional Geometry: Algorithms and Applications, 3rd ed. 任意幾何学:アルゴリズムおよび適用、第3 ed。 0.76
CA, USA: Springer-Verlag TELOS, 2008. CA, USA: Springer-Verlag TELOS, 2008 0.89
[24] D. K. Duvenaud, D. Maclaurin, J. Iparraguirre, R. Bombarell, T. Hirzel, A. Aspuru-Guzik, and R. P. Adams, “Convolutional networks on graphs for learning molecular fingerprints,” in Advances in Neural Information Processing Systems, C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, Eds., vol. D.K. Duvenaud, D. Maclaurin, J. Iparraguirre, R. Bombarell, T. Hirzel, A. Aspuru-Guzik, R. P. Adams, “Convolutional network on graphs for learning molecular fingerprints” in Advances in Neural Information Processing Systems, C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, Eds., vol.”[24] 0.98
28. Curran Associates, Inc., 2015, pp. 28. Curran Associates, Inc., 2015 pp。 0.78
2224–2232. 2224–2232. 0.71
[25] J. Gilmer, S. S. Schoenholz, P. F. Riley, O. Vinyals, and G. E. Dahl, “Neural message passing for quantum chemistry,” in Proceedings of the 34th International Conference on Machine Learning - Volume 70, ser. 25] j. gilmer, s. schoenholz, p. f. riley, o. vinyals, g. e. dahl, “neural message passing for quantum chemistry” in the 34th international conference on machine learning - volume 70, ser. 0.75
ICML’17. JMLR.org, 2017, p. 1263–1272. ICML'17。 JMLR.org, 2017 p. 1263–1272。 0.77
[26] W. L. Hamilton, Z. Ying, [26] W.L. ハミルトン、Z.Ying。 0.76
and J. Leskovec, そしてJ. Leskovec。 0.78
“Inductive in representation learning on large graphs,” in Advances Information Processing Systems 30: Annual Conference Neural Information Processing Systems 2017, 4-9 December on Neural 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. Advances Information Processing Systems 30: Annual Conference Neural Information Processing Systems 2017 4-9 December on Neural 2017, CA, USA, I. Guyon, U. von Luxburg, S.S. V. N. Vishwanathan, R. Garnett, Eds., 2017 pp. ^ “Inductive in representation learning on large graphs”. 原文(投稿日:2012/11/28) 0.89
1024–1034. 1024–1034. 0.71
[Online]. Available: http://papers.nips.c c/paper/6703-inducti verepresentation-lea rning-on-large-graph s [オンライン] 利用可能: http://papers.nips.c c/paper/6703-inducti verepresentation-on- large-graphs 0.47
Bengio, H. M. Wallach, Bengio, H. M. Wallach 0.94
Fergus, R. [27] P. Velickovic, G. Cucurull, A. Casanova, A. Romero, P. Li`o, and Y. Bengio, “Graph attention networks,” in 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, 2018. Fergus R。 P. Velickovic, G. Cucurull, A. Casanova, A. Romero, P. Li`o, and Y. Bengio, “Graph attention network” in 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018. 0.70
[Online]. Available: https://openreview.n et/forum?id=rJXMpikCZ [オンライン] https://openreview.n et/forum?id=rJXMpikCZ 0.62
[28] A. Vaswani, N. Shazeer, N. Parmar, [28] A. Vaswani, N. Shazeer, N. Parmar, 0.96
Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” CoRR, vol. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin, “Attention is all you need”, CoRR, vol。 0.88
abs/1706.03762, 2017. abs/1706.03762, 2017 0.67
[Online]. Available: http://arxiv.org/abs /1706.03762 [オンライン] http://arxiv.org/abs /1706.03762 0.53
J. Uszkoreit, L. J. Uszkoreit, L。 0.96
[29] D. Liben-Nowell and J. Kleinberg, “The link-prediction problem for social networks,” Journal of the American Society for Information Science and Technology, vol. 29] d. liben-nowellとj. kleinbergは、“the link-prediction problem for social networks”、journal of the american society for information science and technology, vol.の著者だ。
訳抜け防止モード: 29 ] d. liben - nowell と j. kleinberg, “the link - prediction problem for social networks” journal of the american society for information science and technology, vol. (英語)
58, no. 7, p. 1019–1031, May 2007. 58だ 7p.1019-1031,2007年5月 0.49
[30] M. Zhang and Y. Chen, “Link prediction based on graph neural networks,” in Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, 3-8 December 2018, Montr´eal, Canada, 2018, pp. M. Zhang氏とY. Chen氏, “Link prediction based on graph neural network” in Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, 3-8 December 2018, Montr ́eal, Canada, 2018, pp. 0.89
5171– 5181. 5171– 5181. 0.94
[Online]. Available: http://papers.nips.c c/paper/7763-linkpre diction-based-on-gra ph-neural-networks [オンライン] 利用可能: http://papers.nips.c c/paper/7763-linkpre diction-based-on-gra ph-neural-networks 0.46
[31] Q. Li, Z. Han, and X. Wu, “Deeper insights into graph convolutional networks for semi-supervised learning,” in Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, S. A. McIlraith and K. Q. Weinberger, Eds. 13] Q. Li, Z. Han, X. Wu, “Deeper insights into graph convolutional network for semi-supervised learning” in Proceedings of the 30irty-Second AAAI Conference on Artificial Intelligence, (AAAI18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018 S.A. McIlraith and K. Q. Weinberger, Eds. (英語) 0.95
AAAI Press, 2018, pp. AAAI Press, 2018, pp。 0.79
3538–3545. 3538–3545. 0.71
[32] G. Li, M. M ¨uller, A. K. Thabet, and B. Ghanem, “Deepgcns: Can gcns go as deep as cnns?” in 2019 IEEE/CVF International Conference on Computer Vision, ICCV 2019, Seoul, Korea (South), October 27 - November 2, 2019. 2019年IEEE/CVF International Conference on Computer Vision, ICCV 2019, Korea (South), October 27–2019年11月2日). “[32] G. Li, M. M シュラー, A. K. Thabet, B. Ghanem, “Deepgcns: gcns goes as deep as cnns? 0.87
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
9266–9275. 9266–9275. 0.71
[Online]. Available: https://doi.org/10.1 109/ICCV.2019.00936 [オンライン] 利用可能: https://doi.org/10.1 109/ICCV.2019.00936 0.49
[33] T. Kanungo and R. M. Haralick, “An automatic closed-loop methodology for generating character groundtruth for scanned documents,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.[33] T. Kanungo, R. M. Haralick, “A Automatic closed-loop methods for generating character groundtruth for scanned document”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 0.79
21, no. 2, pp. 21、いいえ。 2、p。 0.68
179–183, 1999. 179–183, 1999. 0.84
[34] K. He, X. Zhang, S. Ren, and J. [34]K.He,X.Zhang,S. Ren,J. 0.80
Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. sun, “deep residual learning for image recognition” 2016 ieee conference on computer vision and pattern recognition (cvpr), pp. 2016 ^ “deep residual learning for image recognition” 0.86
770–778. [35] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 770–778. 35] Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, “Gradient-based learning apply to document recognition, Proceedings of the IEEE, vol。 0.78
86, no. 11, pp. 86、ノー。 11, pp。 0.77
2278–2324, 1998. 2278–2324, 1998. 0.84
[36] C. Clausner, A. Antonacopoulos, and S. Pletschacher, “ICDAR2019 competition on recognition of documents with complex layouts - RDCL2019,” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019. C. Clausner氏, A. Antonacopoulos氏, S. Pletschacher氏, “ICDAR2019 competition on recognition of documents with complex layouts - RDCL2019” in 2019 International Conference on Document Analysis and Recognition, ICDAR 2019, Sydney, Australia, September 20-25, 2019”。 0.89
IEEE, 2019, pp. IEEE, 2019, pp。 0.83
1521–1526. 1521–1526. 0.71
[Online]. Available: https://doi.org/10.1 109/ICDAR.2019.00245 [オンライン] 利用可能: https://doi.org/10.1 109/ICDAR.2019.00245 0.49

翻訳にはFugu-Machine Translatorを利用しています。