論文の概要、ライセンス

# (参考訳) 文書画像からの複雑な表構造の視覚的理解 [全文訳有]

Visual Understanding of Complex Table Structures from Document Images ( http://arxiv.org/abs/2111.07129v1 )

ライセンス: CC BY 4.0
Sachin Raja, Ajoy Mondal, and C V Jawahar(参考訳) 文書の包括的理解には表構造認識が必要である。 非構造化ビジネスドキュメントのテーブルは、レイアウトの多様性、コンテンツのアライメントの相違、空のセルの存在などにより、解析が困難である。 この問題は、視覚的または言語的文脈または両方を用いて個々の細胞を特定することの難しさのため、特に難しい。 テーブル細胞(空の細胞を含む)の正確な検出は構造抽出を単純化し、これが我々の研究の焦点となる。 本稿では,テーブル内のセル固有のアライメントを抽出し,高速な最適化を実現するオブジェクト検出に基づく新しいディープモデルを提案する。 細胞を正確に検出しているにもかかわらず、多列/カラムスパンニング細胞の存在下での長距離行/カラム依存性の捕捉が困難であるため、高密度テーブルの構造を認識することは依然として困難である。 そこで我々は,新しい線形グラフに基づく定式化による構造認識の向上も目指している。 セマンティクスの観点からは、テーブル内の空のセルの重要性を強調する。 これらの細胞を考慮に入れた上で,評価基準の強化を提案する。 最後に,人間の認識にインスパイアされたアノテーション型評価データセットを導入し,この問題に対する新たなアプローチを提案する。 我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。

Table structure recognition is necessary for a comprehensive understanding of documents. Tables in unstructured business documents are tough to parse due to the high diversity of layouts, varying alignments of contents, and the presence of empty cells. The problem is particularly difficult because of challenges in identifying individual cells using visual or linguistic contexts or both. Accurate detection of table cells (including empty cells) simplifies structure extraction and hence, it becomes the prime focus of our work. We propose a novel object-detection-bas ed deep model that captures the inherent alignments of cells within tables and is fine-tuned for fast optimization. Despite accurate detection of cells, recognizing structures for dense tables may still be challenging because of difficulties in capturing long-range row/column dependencies in presence of multi-row/column spanning cells. Therefore, we also aim to improve structure recognition by deducing a novel rectilinear graph-based formulation. From a semantics perspective, we highlight the significance of empty cells in a table. To take these cells into account, we suggest an enhancement to a popular evaluation criterion. Finally, we introduce a modestly sized evaluation dataset with an annotation style inspired by human cognition to encourage new approaches to the problem. Our framework improves the previous state-of-the-art performance by a 2.7% average F1-score on benchmark datasets.
公開日: Sat, 13 Nov 2021 14:54:33 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Visual Understanding of Complex Table Structures from Document Images 文書画像からの複雑な表構造の視覚的理解 0.81
Sachin Raja IIIT-Hyderabad さちんラージャ IIIT-Hyderabad 0.36
Ajoy Mondal IIIT-Hyderabad Ajoy Mondal IIIT-Hyderabad 0.39
Jawahar C V IIIT-Hyderabad Jawahar C VIIIT-Hyderabad 0.36
sachin.raja@research .iiit.ac.in sachin.raja@research .iiit.ac.in 0.20
ajoy.mondal@iiit.ac. in ajoy.mondal@iiit.ac. in 0.24
jawahar@iiit.ac.in jawahar@iiit.ac.in 0.29
Abstract Table structure recognition is necessary for a comprehensive understanding of documents. 概要 文書の包括的理解には表構造認識が必要である。 0.64
Tables in unstructured business documents are tough to parse due to the high diversity of layouts, varying alignments of contents, and the presence of empty cells. 非構造化ビジネスドキュメントのテーブルは、レイアウトの多様性、コンテンツのアライメントの相違、空のセルの存在などにより、解析が困難である。 0.75
The problem is particularly difficult because of challenges in identifying individual cells using visual or linguistic contexts or both. この問題は、視覚的または言語的文脈または両方を用いて個々の細胞を特定することの難しさのため、特に難しい。
訳抜け防止モード: 問題は特に困難です 視覚または言語的文脈またはその両方を使用して個々の細胞を同定する。
0.73
Accurate detection of table cells (including empty cells) simplifies structure extraction and hence, it becomes the prime focus of our work. テーブル細胞(空の細胞を含む)の正確な検出は構造抽出を単純化し、これが我々の研究の焦点となる。 0.78
We propose a novel object-detection-bas ed deep model that captures the inherent alignments of cells within tables and is fine-tuned for fast optimization. 本稿では,テーブル内のセル固有のアライメントを抽出し,高速な最適化を実現するオブジェクト検出に基づく新しいディープモデルを提案する。 0.70
Despite accurate detection of cells, recognizing structures for dense tables may still be challenging because of difficulties in capturing long-range row/column dependencies in presence of multi-row/column spanning cells. 細胞を正確に検出しているにもかかわらず、多列/カラムスパンニング細胞の存在下での長距離行/カラム依存性の捕捉が困難であるため、高密度テーブルの構造を認識することは依然として困難である。 0.54
Therefore, we also aim to improve structure recognition by deducing a novel rectilinear graph-based formulation. そこで我々は,新しい線形グラフに基づく定式化による構造認識の向上も目指している。 0.68
From a semantics perspective, we highlight the significance of empty cells in a table. セマンティクスの観点からは、テーブル内の空のセルの重要性を強調する。 0.75
To take these cells into account, we suggest an enhancement to a popular evaluation criterion. これらの細胞を考慮に入れた上で,評価基準の強化を提案する。 0.78
Finally, we introduce a modestly sized evaluation dataset with an annotation style inspired by human cognition to encourage new approaches to the problem. 最後に,人間の認識にインスパイアされたアノテーション型評価データセットを導入し,この問題に対する新たなアプローチを提案する。 0.76
Our framework improves the previous state-of-the-art performance by a 2.7% average F1-score on benchmark datasets. 我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。 0.66
1. Introduction A fine-grained understanding of complex document objects such as tables, charts, and graphs in document images is challenging. はじめに 文書画像におけるテーブル、チャート、グラフなどの複雑なドキュメントオブジェクトの詳細な理解は困難である。 0.61
We focus on table structure recognition, which is a precursor to semantic table understanding. セマンティックテーブル理解の先駆けとなるテーブル構造認識に着目した。 0.65
Table structure recognition generates a machine-interpretabl e output for a given table image, which encodes its layout according to a pre-defined standard [30, 17, 20, 42, 4, 39, 24]. テーブル構造認識は、予め定義された標準[30,17,20,42,4,39,24]に従ってレイアウトを符号化する所定のテーブル画像に対する機械解釈可能な出力を生成する。 0.84
Table structure recognition is difficult due to テーブル構造認識は困難である 0.82
(a) inconsistency in size and density of tables, (a)表の大きさ及び密度の矛盾 0.70
(b) absence of horizontal and/or vertical separator lines, b)水平線及び/又は垂直線がないこと。 0.79
(c) variation in table cells’ shapes and sizes, c) 表細胞の変動 形や大きさ 0.64
(d) table cells spanning multiple rows and (or) columns, (d)複数の行と(または)列にまたがるテーブルセル 0.81
(e) presence of empty cells, and e)空の細胞の存在,および 0.78
(f) cells with multi-line content [12, 36, 13, 9, 15, 31]. (f)多線量[12,36,13,9,15,31]を有する細胞。 0.74
Figure 1 visually illustrates some of the challenges. 図1は、いくつかの課題を視覚的に示します。 0.53
Figure 1. Demonstrates the challenges in table structure recognition task including absence of horizontal and vertical separators, multi-row/column spanning cells and empty cells. 図1に示す。 テーブル構造認識タスクにおける課題として、水平および垂直分離器の欠如、マルチロー/カラムスパンピングセル、空セルなどがある。
訳抜け防止モード: 図1に示す。 水平・垂直分離器の欠如を含むテーブル構造認識タスクにおける課題 multi- row / column spanning cellと空の細胞。
0.68
Structure recognition of tables generally requires it to be broken down into cells first and then building associations between them. 表の構造認識には、まず細胞に分解し、その間に関連性を構築する必要がある。 0.75
Cell detection is carried out using either visual or linguistic cues or both. 細胞検出は視覚的または言語的手がかりまたは両方を用いて行われる。 0.74
As a precursor to obtain a good structure recognition performance, it is imperative to detect cells that are highly accurate and closely overlap with the ground truth. 優れた構造認識性能を得る前駆体として、精度が高く、基礎的真理と密接に重なる細胞を検出することが不可欠である。 0.79
In few instances where access to machinereadable PDFs is available, it becomes easier to identify content and its location for every table cell. マシン可読PDFへのアクセスが利用可能ないくつかのケースでは、各テーブルセルのコンテンツとその場所を識別しやすくなる。 0.78
Detection of table cells as independent objects is challenging, as discussed earlier. 先に述べたように、独立したオブジェクトとしてのテーブルセルの検出は困難である。 0.57
Contrarily, since tables generally adhere to an inherent structural alignment, it is relatively easier to locate columns and rows. 反対に、一般にテーブルは固有の構造的アライメントに従うため、列や行を見つけるのは比較的容易である。 0.73
However, that would split cells that span multiple rows/columns. しかし、それは複数の行/列にまたがる細胞を分割する。 0.68
In this work, we locate table cells independently and through detection of rows and columns while preserving the multi-row and multi-column spanning structures. 本研究では,複数列および複数列のスパン構造を維持しつつ,行と列の検出を通じてテーブルセルを独立に配置する。 0.76
Our results demonstrate improved F1-scores for cell detection and better localization of empty cells. その結果,F1スコアが向上し,細胞検出能が向上した。 0.67
This brings up an interesting thought: “How to interpret table cells without content and whether they carry any se- これは興味深い考えをもたらす: “コンテンツなしでテーブルセルを解釈する方法と、それらがseを持っているかどうか。 0.65
英語(論文から抽出)日本語訳スコア
mantic meaning or not? マンティックの意味は? 0.66
”. The absence of text in a table region may or may not suggest the presence of empty table cells, which are therefore difficult to detect. ”. テーブル領域におけるテキストの欠如は、空のテーブルセルの存在を示唆するかもしれないし、示唆しないかもしれない。 0.56
In most cases, cells that have no content might carry implicit semantic meanings. ほとんどの場合、内容を持たない細胞は暗黙の意味を持つ。 0.66
For example, an empty cell in a numeric column in balance sheets would either indicate a zero value or ‘not applicable’. 例えば、バランスシートの数値列にある空のセルはゼロ値を示すか'適用されない'かを示す。 0.77
Similarly, the row header cell corresponding to the ‘total’ or ‘sum’ values is usually left blank. 同様に、'total'または'sum'値に対応する行ヘッダセルは通常空白のままである。 0.88
There might also be cases where an empty cell might span multiple rows and/or columns, such as a row header cell. 空のセルが複数の行や列、例えば行ヘッダセルにまたがる場合もある。
訳抜け防止モード: 場合によっては 空のセルは、行ヘッダセルのような複数の行や/または列にまたがる。
0.75
In such instances, not correctly detecting empty cells would result in a loss of information during semantic parsing of the tables. そのような場合、空の細胞を正しく検出しないと、テーブルのセマンティック解析中に情報が失われる。
訳抜け防止モード: そのような場合 空の細胞を正しく検出しない その結果、テーブルの意味解析中に情報が失われます。
0.80
Therefore, we emphasize the detection of empty cells and propose enhancing the existing vision-based criteria [7] to consider empty cells for evaluation. そこで我々は,空セルの検出を重要視し,既存の視覚基準 [7] の強化を提案する。 0.62
The natural follow up question becomes: “What characterizes a good cell detection performance in a visual context?”. 自然なフォローアップ問題は、“視覚的なコンテキストで優れた細胞検出性能を特徴付けるものは何か? 0.77
In natural object detection, Intersection over Union (IoU) measure estimates of how well an object is detected. 自然物体検出において、IoU(Intersection over Union)は、対象物がどの程度よく検出されているかを推定する。 0.65
However, there are two concerning factors for cell detection: しかし、細胞検出には2つの要因がある。 0.82
(i) How are the ground truth cell boundingboxes annotated? (i)根拠真理セルバウンディングボックスはどのように注釈されているか。 0.57
(ii) What is the IoU threshold value used to compute evaluation metrics? (ii)評価指標を計算するために用いられるIoUしきい値は何ですか? 0.81
For table cells, most datasets [22, 4, 6, 17, 42, 41] have cell box annotation that spans the smallest rectangle encapsulating its content. テーブルセルの場合、ほとんどのデータセット (22, 4, 6, 17, 42, 41] は、そのコンテンツをカプセル化した最小長方形にまたがるセルボックスアノテーションを持っている。 0.76
This annotation style misses on the bounding boxes for empty cells and on cells’ inherent alignment constraints. このアノテーションスタイルは、空のセルのバウンディングボックスと、セル固有のアライメント制約を見逃している。 0.69
Further, most cell detection methods [7, 41] evaluate using an Intersection over Union (IoU) threshold of 0.6, which might not always correspond to capturing the entire cell content. さらに, ほとんどの細胞検出方法 [7, 41] は, 常にセル全体を捕捉するとは限らない0.6のIoU(Intersection over Union)しきい値を用いて評価する。 0.90
In light of these challenges, we believe it is important for a cell detection method to perform well on high IoU thresholds. これらの課題を踏まえ、細胞検出法は高いIoU閾値で良好に機能することが重要であると考えている。 0.73
In that regard, there also arises a need for a standard evaluation dataset. その点では、標準評価データセットの必要性も浮かび上がっています。 0.69
Its ground truth cell boxes preserve their native alignment constraints (just as we humans perceive tables) and have annotations for empty cells. その地味な真理の細胞箱は、(人間がテーブルを知覚するように)ネイティブなアライメントの制約を保持し、空の細胞に対するアノテーションを持っている。
訳抜け防止モード: その基底真理セルボックスは、それらのネイティブアライメント制約を保存する 人間がテーブルを知覚するように) 空の細胞に対するアノテーションがあります
0.73
We present Table Understanding for Complex Documents (TUCD) as an evaluation dataset consisting of 4500 manually annotated table images from business domain with a high diversity of table layouts having complex structures (samples shown in the supplementary material). 複雑な構造(補足資料に示す例)を有するテーブルレイアウトの多様性が高いビジネスドメインから4500の手動アノテーション付きテーブルイメージからなる評価データセットとして,複合文書のためのテーブル理解(tucd)を提案する。 0.85
To detect table cells, we propose TOD-Net, where we augment the cell detection network of TabStruct-Net [24] with additional loss components to further improve the table object performance (rows/columns/cells) detection. テーブルセルを検出するため、テーブルオブジェクトの性能(rows/columns/cells) をさらに向上させるために、tabstruct-net [24] のセル検出ネットワークを追加の損失コンポーネントで拡張するtod-netを提案する。 0.75
These losses (formulated as regularizers) improve cell detection performance on high IoU thresholds by pairwise modelling of structural constraints. これらの損失は、構造的制約のペアワイズモデリングにより、高いIoU閾値での細胞検出性能を向上させる。 0.73
It allows for an improved bounding box detection despite presence of non-informative visual features in a specific table region using information from other cells detected in a different region of the table. テーブルの異なる領域で検出された他のセルの情報を使用して、特定のテーブル領域に非情報的視覚的特徴があるにもかかわらず、バウンディングボックスの検出を改善することができる。 0.71
Once table cells are located precisely, extracting structure as an XML or any other predefined format is relatively テーブルセルが正確に配置されると、xmlや他の定義済みのフォーマットとして構造を抽出するのは比較的簡単です。 0.56
easier. However, for extremely dense tables with many multi-row and multi-column spanning cells, it may still be challenging to build associations between cells that are far apart in the two-dimensional space. 楽だ しかし、多くの多列細胞と多列細胞からなる非常に密集したテーブルでは、2次元空間において遠く離れた細胞間の関係を構築することは依然として困難である。 0.58
To handle this problem, we propose TSR-Net for structure recognition which uses the existing DGCNN architecture [22]. 本稿では,既存の DGCNN アーキテクチャ [22] を用いた構造認識のための TSR-Net を提案する。 0.87
Our formulation uses rectilinear adjacencies instead of row/column adjacencies [22, 24]. 我々の定式化は行/列の隣接ではなく直線の隣接を用いる[22, 24]。 0.52
Recursive parsing of rectilinear adjacencies helps to build better long-range visual row/column associations. 直線的隣接性の再帰的解析は、より長い範囲の視覚的列/列の関連性を構築するのに役立つ。 0.41
Our contributions can be summarized as follows: 私たちの貢献は次のように要約できる。 0.61
• Introduce channel attention [19] for table object detection and define two additional regularizers — continuity and overlapping loss between every pair of cells in addition to the alignment loss from [24]. • テーブルオブジェクト検出のためのチャネルアテンション[19]を導入し、[24]からのアライメントロスに加えて、各セル間の連続性と重なり合う損失の2つの追加正規化子を定義する。 0.79
We use trainable loss-weights for these losses and formulate a min-max optimization problem for faster convergence. これらの損失に対してトレーニング可能な損失重みを使い、より高速な収束のためにmin-max最適化問題を定式化する。 0.48
• Formulate structure recognition using rectilinear adjacencies instead of row/column adjacencies, eliminating the need for complex post-processing heuristics for generating row and column spanning information for every cell. • 行/列の隣接ではなく、直線的な隣接を用いた構造認識を定式化し、各セルの行と列にまたがる情報を生成するための複雑な後処理ヒューリスティックを不要にする。 0.57
• Introduce modestly sized manually annotated TUCD as an evaluation dataset comprising 4500 table images from publicly available annual reports. • 公開年次報告書から4500枚の表画像からなる評価データセットとして,手動注釈付きTUCDを導入する。 0.73
• Suggest improvements to the existing criterion proposed in [7] for a stricter evaluation of table structure recognition and demonstrate significantly improved performance on relatively higher IoU thresholds of 0.7 and above compared to the state-of-the-art methods. • テーブル構造認識の厳格な評価のために [7] に提案した既存の基準を改良し, 現状の手法と比較して比較的高いIoU閾値0.7以上の性能を著しく向上した。 0.88
• We demonstrate improved performance on cell detection through intermediate row and column detection tasks. •中間行および列検出タスクによるセル検出の性能向上を実証する。 0.81
2. Related Work Early methods [36, 12] on table structure recognition primarily depend on hand-crafted features and heuristics (horizontal and vertical ruling lines, spacing, and geometric analysis). 2.関連業務 表構造認識の初期手法 [36, 12] は主に手作りの特徴とヒューリスティック(水平・垂直支配線, 間隔, 幾何学的解析)に依存する。 0.78
However, these usually make strong assumptions about table layouts for a domain agnostic algorithm. しかし、これらは通常、ドメインに依存しないアルゴリズムのテーブルレイアウトについて強い仮定をする。 0.56
Some recent data-driven methods include works by [1, 32, 21, 33]. 最近のデータ駆動手法には[1, 32, 21, 33]による処理が含まれる。 0.67
Cognitive methods in this space broadly classified into five categories — image-to-sequence models [17, 2, 14], segmentation networks [26, 18, 20, 23], graph formulations [22, 4, 24], conditional generative adversarial networks [16] and a recent multi-modal method by [40]. この領域の認知的手法は, 画像系列モデル [17, 2, 14], セグメンテーションネットワーク [26, 18, 20, 23], グラフ定式化 [22, 4, 24], 条件生成対向ネットワーク [16] と, 最新のマルチモーダル手法 [40] の5つのカテゴリに分類される。 0.82
A combination of heuristics and deep learning methods was also proposed [30] based on splitting the table into sub-cells, and then merging semantically connected 30] テーブルをサブセルに分割し, 意味的結合をマージすることにより, ヒューリスティックスと深層学習法の組み合わせも提案した。 0.86
英語(論文から抽出)日本語訳スコア
Figure 2. Shows our approach. 図2。 私たちのアプローチを示します。 0.64
Cell detection is done using TOD-Net. 細胞検出はTOD-Netを用いて行われる。 0.60
Bounding boxes used as an input by the structure recognition model (based on DGCNN [22], which predicts rectilinear adjacencies. These are then collectively used by the post-processing step to generate output XML containing structure). 構造認識モデルによる入力として使用されるバウンディングボックス(DGCNN[22]に基づいて、直交隣接を予測する。これらは、後処理ステップでまとめて、構造を含む出力XMLを生成する。) 0.83
sub-cells to preserve the complete table structure. 完全なテーブル構造を保存するサブセル。 0.79
These algorithms are robust to input types (scanned images or native digital) and do not generally make assumptions about the layouts. これらのアルゴリズムは入力タイプ(スキャン画像またはネイティブデジタル)に頑健であり、一般的にレイアウトについて仮定しない。 0.72
They are data-driven, and easy to fine-tune across different domains. データ駆動型で、さまざまなドメインにまたがる微調整が簡単です。 0.61
Some methods that use linguistic context were proposed by [2, 18, 5]. また, [2, 18, 5] では, 言語文脈を用いた手法が提案されている。 0.64
Many invoice-specific table extraction models have also been proposed [25, 11]. 多くの請求書固有の表抽出モデルも [25, 11] 提案されている。 0.70
Recently, many researchers have opted for a graph-based formulation of the problem as a graph is inherently an ideal data structure to model associations between entities [22, 4, 24]. 近年、多くの研究者が、グラフとしての問題をグラフベースで定式化することを選択している(22, 4, 24] エンティティ間の関連をモデル化するための理想的なデータ構造である。 0.70
Raja [24] proposed a first end-to-end object detection and graph based model for collective cells detection and structure recognition. raja [24]は、集合細胞の検出と構造認識のための、最初のエンドツーエンドオブジェクト検出とグラフベースモデルを提案した。 0.67
Another recent work, GTE-Cell [41], follows a nested approach by first classifying whether a table includes ruling lines or not, and then uses specifically tailored heuristics to identify the table structure. もう一つの最近の研究、gte-cell [41] は、まずテーブルが支配行を含むかどうかを分類し、次に特別に調整されたヒューリスティックを用いてテーブル構造を識別するネスト化アプローチに従っている。 0.61
While these methods contribute to significant progress, they make certain assumptions like the availability of accurate word bounding boxes, machine readable PDF documents, and others, as additional inputs [18, 22, 4, 30]. これらの手法は大きな進歩をもたらすが、正確なワードバウンディングボックス、機械可読のpdf文書など、追加入力として[18,22,4,30]として利用できるという仮定を定めている。 0.74
Contrarily, the TabStruct-Net [24] does not make any such assumptions and produces adjacency relations and cell locality information as the output. 対照的に、TabStruct-Net[24]はそのような仮定をせず、出力として隣接関係およびセルローカリティ情報を生成する。 0.71
However, it fails to capture empty cells accurately and, in many cases, results in a significant overlap between detected cells. しかし、空の細胞を正確に捉えることができず、多くの場合、検出された細胞間で顕著に重複する。 0.66
Further, its structure recognition module failed to correctly identify row/column associations between far-apart cells in case of dense tables. さらに、その構造認識モジュールは、高密度テーブルの場合、遠方の細胞間の行/列関係を正しく識別できなかった。 0.65
Given the recent successes in natural object detection [3, 29, 38], and the effectiveness of attention in improving its performance [34, 34, 35, 37], we base our cell detection model on the object detection paradigm. 自然物体検出の最近の成功[3,29,38]と,その性能向上における注意の効果[34,34,35,37]を考慮し,対象検出パラダイムに基づく細胞検出モデルを構築した。 0.83
Our work aims to localize low-level table objects better on higher IoU thresholds, including empty cells. 私たちの仕事は 低レベルのテーブルオブジェクトを空のセルを含む高いIoUしきい値にローカライズする。 0.74
Our work also improves long range associations for structure recognition through rectilinear adjacency based formulation. また,構造認識のための長い範囲の関連性も改善する。 0.54
3. Proposed Method We formulate the table understanding problem at two levels — low-level, i.e., detection of table objects (rows, columns, and cells) and high-level, i.e., physical structure recognition by building associations between cells. 3.提案方法 テーブル理解問題を,低レベル,すなわちテーブルオブジェクト(バラ,コラム,細胞)の検出,高レベル,すなわち,細胞間の関連性を構築することで物理的構造認識という2つのレベルで定式化する。 0.61
Most existing methods define table cells as the smallest polygon that encapsulates its content. 既存のほとんどの方法は、テーブルセルをその内容をカプセル化する最小のポリゴンとして定義している。 0.53
This has two shortcomings. これには2つの欠点がある。 0.50
(i) It misses on the alignment and continuity constraints that are very natural to human cognition; and (i)人間の認識に非常に自然であるアライメントと連続性の制約を見逃し、 0.72
(ii) it misses on empty cells that usually carry important semantic meanings. (ii)通常重要な意味意味を持つ空の細胞を欠いている。 0.80
Inspired by human cognition, we say that table cells, in addition to completely encapsulating their content, should adhere to alignment [24], continuity and non-overlapping constraints, which in-turn makes it easier to locate table columns and rows as independent objects. 人間の認識に触発されて、テーブルセルはコンテンツを完全にカプセル化することに加えて、[24]、連続性、重複しない制約に固執すべきであり、これは順番にテーブル列や行を独立したオブジェクトとして見つけやすくする。 0.67
As discussed in Section 1, many existing methods assume pre-located cell content and target only high-level structure understanding. 第1節で述べたように、既存の多くの方法では、事前配置された細胞量を保持し、高レベルな構造理解のみをターゲットとしている。 0.42
Usually, table cells’ coordinates are obtained by parsing corresponding PDF/LaTeX documents which may not always be available. 通常、テーブルセルの座標は対応するPDF/LaTeX文書を解析することで得られる。 0.67
Several methods also use OCR tools to extract cell contents, resulting in the loss of intra-cell associations and structural alignment. いくつかの方法はOCRツールを使って細胞の内容物を抽出し、細胞内結合や構造的アライメントが失われる。 0.65
Further, the absence of cell content makes it difficult to consider empty cells for structure recognition. さらに、細胞量がないため、構造認識のための空の細胞を考えるのが困難である。
訳抜け防止モード: さらに 細胞量がないと 構造認識のための空セルを考えることは困難である。
0.84
In many realworld documents, empty cells carry a semantic meaning and must be associated with the table to obtain an accurate table 多くの実世界の文書では、空のセルは意味的な意味を持ち、正確なテーブルを得るためにテーブルに関連付けられなければならない 0.65
英語(論文から抽出)日本語訳スコア
structure. Not taking them into account might lead to false negatives and, in-turn, incorrect structure [24]. 構造。 それらを考慮していないと、偽陰性や逆転、誤った構造につながる可能性がある[24]。 0.72
To localize table cells, we experiment by solving cell detection directly and through the intersection of predicted rows and columns. テーブルセルをローカライズするために,予測列と列の交点を介し,細胞検出を直接的に行う実験を行った。 0.77
After locating all cells, we build rectilinear associations between every pair by formulating the problem as a graph. すべてのセルを探索した後、問題をグラフとして定式化し、各ペア間の直線関係を構築する。 0.63
Our solution progresses in three steps, as shown in Figure 2, — 図2に示すように、私たちのソリューションは3つのステップで進行します。 0.68
(i) table cell detection using visual cues, (i)視覚的手がかりを用いたテーブル細胞検出 0.85
(ii) structure recognition by forming rectilinear associations through a graph-based formulation, and (ii)グラフに基づく定式化による直線関係形成による構造認識と 0.88
(iii) collating bounding boxes and rectilinear associations to obtain row and column spanning values for every table cell. (iii)各テーブルセルの行および列スパンディング値を得るために、境界ボックスと直線関係を照合する。 0.82
3.1. Cell Detection 3.1. 細胞検出 0.57
We aim to detect table cells in two ways — テーブル細胞を2つの方法で検出することを目指しています。 0.60
(i) by locating them as independent objects and (i)それらを独立した対象として配置し、 0.59
(ii) by first locating rows and columns as independent objects and then using intersections to obtain cell coordinates. (ii) まず行と列を独立オブジェクトとして配置し, 交叉を用いてセル座標を求める。 0.88
We target row, column, and cell detection as object detection tasks using our Table Object Detection Network (TOD-Net shown in Figure 2), built on top of the cell detection network of TabStructNet [24, 10]. 本研究では,TabStructNetのセル検出ネットワーク上に構築したテーブルオブジェクト検出ネットワーク(図2に示すTOD-Net)を用いて,オブジェクト検出タスクとして行,列,セル検出を対象とする。 0.86
Our augmentations to the existing architecture aim to model the constraints associated with table objects to ensure adjacent cells’ continuity and non-overlap. 既存のアーキテクチャの強化は、テーブルオブジェクトに関連する制約をモデル化し、隣接セルの連続性と非オーバーラップを確実にすることを目的としています。
訳抜け防止モード: 既存アーキテクチャへの拡張 テーブルオブジェクトに関連する制約をモデル化し、隣接セルの連続性と非重複性を保証する。
0.78
We use sparse channel weights on the ROI aligned feature maps to predict table objects’ bounding boxes (cells, rows, and columns). ROIに整列したフィーチャーマップ上でスパースチャネルウェイトを使用して、テーブルオブジェクトのバウンディングボックス(セル、行、列)を予測する。 0.70
We also formulate the problem as min-max optimization using adaptable loss weights for the three structural regularizers — alignment loss [24], continuity loss, and overlap loss. また,アライメント損失 [24],連続損失,重なり損失の3つの構造正規化器に対して適応損失重みを用いたmin-max最適化法として問題を定式化した。 0.68
Notations: Let 𝕏 denote the set of table images; 𝑆𝑅(𝑖), 𝑆𝐶(𝑖), 𝐸 𝑅(𝑖), and 𝐸𝐶(𝑖) represent start-row, start-column, end-row, and end-column indices respectively; and 𝑥1𝑖, 𝑦1𝑖, 𝑥2𝑖 and 𝑦2𝑖 represent bounding box coordinates start-x, start-y, end-x, and end-y, respectively of the object 𝑖. 記法: X をテーブルイメージの集合を表す; SR(i), SC(i), E R(i) と EC(i) は、それぞれ、開始行、開始行、終了行、終了行を表す; x1i, y1i, x2i と y2i は、各オブジェクト i のそれぞれ有界なボックス座標を表す。 0.72
𝑖 and 𝑗 denote two table objects (row/column/cell). i と j は2つのテーブルオブジェクト(row/column/cell)を表す。 0.63
𝐿𝑚 denotes the sum of RPN class loss, RPN bounding box regressor loss, Mask R-CNN class loss, Mask R-CNN bounding box regressor loss, and mask loss. LmはRPNクラス損失、RPN境界ボックス回帰損失、Mask R-CNNクラス損失、Mask R-CNN境界ボックス回帰損失、マスク損失の合計を表す。 0.80
𝐿 𝑎𝑙, 𝐿𝑐𝑙, 𝐿 𝑥 𝑜𝑙 represent alignment loss, continuity loss, and overlap losses along X 𝑜𝑙, and 𝑊 𝑦 and Y directions respectively; and 𝑊𝑎𝑙, 𝑊𝑐𝑙, 𝑊 𝑥 represent corresponding learnable weights. L al、Lcl、Lx olは、それぞれX ol、W y、Y方向に沿ったアライメント損失、連続損失、重なり合い損失を表し、Wal、Wcl、Wxは、対応する学習可能な重量を表す。 0.73
𝑜𝑙, and 𝐿 𝑦 𝑜𝑙 ol と l y 𝑜𝑙 0.51
Continuity Loss: The intuition behind adding continuity loss is that horizontally adjacent objects should end and start at the same x-coordinate and vertically adjacent objects end and start at the same y-coordinate. 連続損失: 連続損失を追加する背景にある直感は、水平に隣接したオブジェクトは同じx座標で始まり、垂直に隣接したオブジェクトは同じy座標で始まります。 0.82
Continuity loss is given 連続損失が与えられる 0.87
in Eq (1) 𝐿𝑟 𝑜𝑤 𝑐𝑙 = Eq (1) 𝐿𝑟 𝑜𝑤 𝑐𝑙 = 0.37
𝐿𝑐𝑜𝑙 𝑐𝑙 = ∑︁ ∑︁ 𝐿𝑐𝑜𝑙 𝑐𝑙 = ∑︁ ∑︁ 0.39
𝑖, 𝑗 𝑖, 𝑗 𝐿𝑐𝑙 = 𝐿𝑟 𝑜𝑤 𝑖, 𝑗 𝑖, 𝑗 𝐿𝑐𝑙 = 𝐿𝑟 𝑜𝑤 0.43
||𝑦1𝑖 − 𝑦2 𝑗||2 ||𝑥1𝑖 − 𝑥2 𝑗||2 𝑐𝑙 + 𝐿𝑐𝑜𝑙 ||𝑦1𝑖 − 𝑦2 𝑗||2 ||𝑥1𝑖 − 𝑥2 𝑗||2 𝑐𝑙 + 𝐿𝑐𝑜𝑙 0.25
𝑐𝑙 . 2 · 𝕀(cid:0)𝑆𝑅(𝑖) == 𝐸 𝑅( 𝑗) + 1(cid:1) 2 · 𝕀(cid:0)𝑆𝐶(𝑖) == 𝐸𝐶( 𝑗) + 1(cid:1) 𝑐𝑙 . 2 · I(cid:0)SR(i) == E R(j) + 1(cid:1) 2 · I(cid:0)SC(i) == EC(j) + 1(cid:1) 0.44
(1) This loss helps to predict well-aligned coordinates by accurately capturing the background or non-text region associated with objects that are significantly wider or longer than the text region contained in them. (1) この損失は、テキスト領域よりもはるかに広い、あるいは長いオブジェクトに関連付けられた背景領域や非テキスト領域を正確にキャプチャすることで、適切に整合した座標を予測するのに役立つ。 0.53
Overlapping Loss: We introduce overlapping loss as an L2 regularizer to minimize overlapping regions between every pair of predicted table objects. 重複損失: L2正規化器として重複損失を導入し、予測テーブルオブジェクト間の重複領域を最小化する。 0.71
During the calculation, the overlap of an object with itself does not account for the loss. 計算中は、オブジェクト自体の重複が損失の原因にはならない。 0.63
Further, it is computed independently along X and Y directions (as given in Eq 2). さらに、X と Y の方向に沿って独立に計算される(Eq 2 で与えられる)。 0.81
𝐿 𝑥 𝑜𝑙 = 𝐿 𝑦 𝑜𝑙 = 𝐿 𝑥 𝑜𝑙 = 𝐿 𝑦 𝑜𝑙 = 0.42
||(𝑚𝑖𝑛(𝑥2𝑖, 𝑥2 𝑗) − 𝑚𝑎𝑥(𝑥1𝑖, 𝑥1 𝑗)||2 ||(𝑚𝑖𝑛(𝑦2𝑖, 𝑦2 𝑗) − 𝑚𝑎𝑥(𝑦1𝑖, 𝑦1 𝑗))||2 ||(𝑚𝑖𝑛(𝑥2𝑖, 𝑥2 𝑗) − 𝑚𝑎𝑥(𝑥1𝑖, 𝑥1 𝑗)||2 ||(𝑚𝑖𝑛(𝑦2𝑖, 𝑦2 𝑗) − 𝑚𝑎𝑥(𝑦1𝑖, 𝑦1 𝑗))||2 0.40
∑︁ ∑︁ 𝑖, 𝑗 ∑︁ ∑︁ 𝑖, 𝑗 0.39
𝑖, 𝑗 2 · 𝕀(cid:0)𝑖! 𝑖, 𝑗 2 · I(cid:0)i! 0.45
= 𝑗(cid:1), 2 · 𝕀(cid:0)𝑖! j(cid:1), 2 · I(cid:0)i! 0.45
= 𝑗(cid:1) = j(cid:1) 0.44
(2) Trainable Loss Weights: We incorporate trainable loss weights for four different structure components as regularizers (alignment, continuity, and overlap loss along X and Y directions) for every region of interest (ROI) independently such that the weights add up to one. (2) トレーニング可能な損失重量: 4つの異なる構造成分に対するトレーニング可能な損失重量を、各関心領域(ROI)に対する正規化子(アライメント、連続性、X方向に沿った重複損失)として、重みが1まで増加するように独立に組み込む。 0.58
This allows for a dynamic emphasis on different structural constraints for different ROIs based on their visual characteristics during training. これにより、トレーニング中の視覚特性に基づいて、異なるroisの構造上の制約を動的に強調することができる。 0.63
We model the optimization problem as a min-max optimization problem as follows: 最適化問題をmin-max最適化問題としてモデル化する。 0.71
𝕃(𝕏, 𝜃𝑚, 𝜃𝑊 ) = 𝑚𝑖𝑛 𝜃𝑚 𝑊𝑎𝑙(𝜃𝑊 ) · 𝐿 𝑎𝑙(𝜃𝑚) + 𝑊𝑐𝑙(𝜃𝑊 ) · 𝐿𝑐𝑙(𝜃𝑚) + 𝑜𝑙(𝜃𝑊 ) · 𝐿 𝑥 𝑊 𝑥 𝕃(𝕏, 𝜃𝑚, 𝜃𝑊 ) = 𝑚𝑖𝑛 𝜃𝑚 𝑊𝑎𝑙(𝜃𝑊 ) · 𝐿 𝑎𝑙(𝜃𝑚) + 𝑊𝑐𝑙(𝜃𝑊 ) · 𝐿𝑐𝑙(𝜃𝑚) + 𝑜𝑙(𝜃𝑊 ) · 𝐿 𝑥 𝑊 𝑥 0.43
(cid:0) 𝐿𝑚(𝜃𝑚)(cid:1) + max (cid:0) 𝑜𝑙(𝜃𝑚)(cid:1) (cid:0) Lm(θm)(cid:1) + max(cid:0) ol(θm)(cid:1) 0.41
𝑜𝑙(𝜃𝑚) + 𝑊 𝑥 𝑜𝑙(𝜃𝑊 ) · 𝐿 𝑦 ∋ 𝑊𝑎𝑙 + 𝑊𝑐𝑙 + 𝑊 𝑥 𝑜𝑙(𝜃𝑚) + 𝑊 𝑥 𝑜𝑙(𝜃𝑊 ) · 𝐿 𝑦 ∋ 𝑊𝑎𝑙 + 𝑊𝑐𝑙 + 𝑊 𝑥 0.43
𝑜𝑙 + 𝑊 𝑦 𝜃𝑊 𝑜𝑙 + 𝑊 𝑦 𝜃𝑊 0.43
𝑜𝑙 = 1 Since we need to minimize the objective loss (as given in Eq (3)) over 𝜃𝑚 and maximize over 𝜃𝑊 , the parameter updates are given by the following Eq (4) 𝑜𝑙 = 1 θm 上で(Eq (3) で与えられるように)目的損失を最小化し θW を最大化するので、パラメータ更新は次の Eq (4) 0.64
𝜃𝑡+1 𝑚 = 𝜃𝑡 𝜃𝑡+1 𝑊 = 𝜃𝑡 𝜃𝑡+1 𝑚 = 𝜃𝑡 𝜃𝑡+1 𝑊 = 𝜃𝑡 0.41
𝑚 − 𝜂 · ∇𝜃 𝑡 𝑊 + 𝜂 · ∇𝜃 𝑡 𝑚 − 𝜂 · ∇𝜃 𝑡 𝑊 + 𝜂 · ∇𝜃 𝑡 0.49
𝑚 𝑊 (cid:0)𝕃(𝕏, 𝜃𝑡 (cid:0)𝕃(𝕏, 𝜃𝑡 𝑚 𝑊 (cid:0)L(X, θt(cid:0)L(X, θt) 0.42
𝑊 )(cid:1) 𝑊 )(cid:1), W )(cid:1) W (cid:1) 0.47
𝑚, 𝜃𝑡 𝑚, 𝜃𝑡 𝑚, 𝜃𝑡 𝑚, 𝜃𝑡 0.42
(3) (4) where 𝜂 is the learning rate. (3) (4) ηは学習率です 0.45
Formulation based on a min-max optimization problem using trainable loss weights (by allowing for weighting different regularizers differently トレーニング可能な損失重みを用いたmin-max最適化問題に基づく定式化(異なる正則化器の重み付けを可能にする) 0.66
英語(論文から抽出)日本語訳スコア
based on RoI’s visual features) not only improves optimization speed, but also proves useful during post-processing. RoIのビジュアル機能をベースに)最適化速度を改善するだけでなく、後処理でも有効である。 0.75
We use the predicted values of loss weights during the test time to identify and correct overlapping or misaligned cells. 試験期間中の損失重みの予測値を用いて重なり合い細胞や不一致細胞を同定・訂正する。 0.66
Our experiments suggest that high overlapping loss weights were observed during test time for dense table images. 実験の結果,高重み付き損失重量は高密度テーブル画像の試験時間中に観測された。 0.71
Similarly, high alignment values and continuity losses were observed for multi-column or multi-row spanning header cells where the text was not aligned in the center. 同様に,テキストが中心に配列されていないマルチカラムやマルチロースパンニングヘッダセルに対して,高アライメント値と連続損失が観察された。 0.81
Channel Attention: To detect table objects’ start and end coordinates, specific visual patterns such as separator lines or non-text regions need to be present. チャネル注意: テーブルオブジェクトの開始座標と終了座標を検出するには、セパレータラインや非テキスト領域のような特定の視覚パターンが存在する必要がある。 0.77
These visual patterns differ significantly from general object detection problems where different shaped edges and textures are essential to distinguish different types of objects. これらの視覚パターンは、異なる種類の物体を識別するために異なる形状のエッジとテクスチャが不可欠である一般的な物体検出問題とは大きく異なる。 0.69
For the detection of table objects, the distinguishing visual clues occur in particular regions of every ROI. テーブルオブジェクトの検出には、各ROIの特定の領域で視覚的手がかりが識別される。 0.78
In order to localize table cells, specific set of visual features contribute. テーブルセルをローカライズするために、特定の視覚機能セットが寄与する。 0.67
For example, a column (or a row) would start or end at an x (or y)-coordinate where around that region, either a vertical (or a horizontal) separator or non-text/background is observed along the length (or width) of the image. 例えば、列(または行)がx(またはy)座標で開始または終了し、その領域の周囲で、画像の長さ(または幅)に沿って垂直(または水平)セパレータまたは非テキスト/背景が観察される。 0.80
This motivates us to incorporate L1-regularized channel-wise attention to look for specific sparse patterns to detect cell bounding boxes accurately. これにより、L1規則化チャネルワイドアテンションを組み込んで、特定のスパースパターンを探し、細胞境界ボックスを正確に検出する動機付けとなる。 0.49
The attention-mechanism we use is based on the architecture proposed by [19] and is shown in Figure 2. 注意-メカニズムは[19]によって提案されたアーキテクチャに基づいており、図2に示されています。 0.72
3.2. Structure Recognition 3.2. 構造認識 0.58
We formulate the table structure recognition as a graph learning problem similar to [22]. 表構造認識を[22]に似たグラフ学習問題として定式化する。 0.80
However, instead of creating row and column adjacency matrices, we create four rectilinear matrices such as left (𝑀𝑙), right (𝑀𝑟 ), top (𝑀𝑡), and bottom (𝑀𝑏) ∈ 𝑅𝑛×𝑛, where n denotes the number of detected cells. しかし、列と列の隣接行列を作成する代わりに、左(ml)、右(mr)、トップ(mt)、ボトム(mb) ∈ rn×nという4つの直線行列を作成し、nは検出された細胞の数を表す。 0.72
For the top rectilinear matrix, 𝑀𝑡, the element at 𝑀𝑡(𝑖, 𝑗) indicates whether cell 𝑗 is at the top of cell 𝑖. mt(i, j) 上の直線行列では、mt(i, j) の要素はセル j がセル i の頂点にあるかどうかを示している。 0.68
Similarly, we create left 𝑀𝑙, right 𝑀𝑟 , and bottom 𝑀𝑏 matrices. 同様に、左Ml、右Mr、下Mb行列を作成する。 0.58
Formulating the problem in this way allows for better capturing of long-range dependencies for dense tables particularly. この方法で問題を定式化することで、特に密集したテーブルに対する長距離依存関係のキャプチャが向上する。 0.53
We use four instances of the DGCNN architecture proposed in [22] to predict the four rectilinear matrices. 22] で提案された dgcnn アーキテクチャの 4 つの例を用いて, 4 つの直交行列を予測した。 0.67
The DGCNN consists of three components — DGCNNは3つのコンポーネントで構成される。 0.63
(i) a visual network to generate a visual feature map corresponding to the input table image, (i)入力テーブル画像に対応する視覚特徴マップを生成する視覚ネットワーク 0.69
(ii) an interaction network to capture associations between cells from the visual features and coordinates of table cells, and 二 表細胞の視覚的特徴及び座標から細胞間の関係を捉えるための相互作用ネットワーク 0.66
(iii) a classification network to determine if a pair of table cells are left/right/top/botto m adjacent. (iii)一対のテーブルセルが隣接する左/右/トップ/ボトムであるか否かを判定する分類ネットワーク。 0.66
The training happens in two steps. トレーニングは2つのステップで行われます。 0.65
In the first step, we use ground-truth boxes, and in the second step, we fine-tune the models using predictions of TOD-Net on the training dataset. 第1ステップでは、地平線ボックスを使用し、第2ステップでは、トレーニングデータセット上でTOD-Netの予測を使用してモデルを微調整します。 0.63
The training adjacencies are obtained by identifying the largest overlapping ground truth cell corresponding to the prediction. トレーニング隣接性は、予測に対応する最大の重なり合う基底真理セルを特定して得られる。 0.65
3.3. Post-processing Firstly, we fine-tune the predicted cell bounding boxes using Tesseract’s [28] word bounding boxes to ensure that the predicted cell boundary region does not pass through any text region. 3.3. 後処理 まず,テッセラクトの[28]ワード境界ボックスを用いて予測セル境界ボックスを微調整し,予測セル境界領域がテキスト領域を通過しないことを保証する。 0.57
Once cell bounding boxes and rectilinear adjacency matrices are obtained, the next step is to figure out row and column spanning values for every cell. セルバウンディングボックスと直線隣接行列が得られた後、次のステップは、各セルの行と列のスパンニング値を求めることである。 0.79
The maximum count of left and right adjacencies is obtained recursively to obtain row span for cell 𝑖. 左右の隣接の最大数を再帰的に取得し、セルiの行スパンを得る。 0.63
Similarly, to obtain column span for cell 𝑖, the maximum count of top and bottom adjacencies is obtained recursively. 同様に、セルiのカラムスパンを得るには、上と下の隣接の最大数が再帰的に得られる。 0.65
Finally, start-row (𝑆𝑅), end-row (𝐸 𝑅), start-column (𝑆𝐶), and end-column (𝐸𝐶) indices for every cell are obtained by sorting the coordinates based on start-x and end-x coordinates along with the row and column spans obtained using the rectilinear adjacency matrices. そして、各セルに対するスタートロー(SR)、エンドロー(ER)、スタートカラム(SC)、エンドカラム(EC)指数を、直交隣接行列を用いて得られる行及び列幅とともに、スタートx、エンドx座標に基づいて座標をソートして取得する。 0.74
The use of rectilinear adjacencies accounted for reduced use of heuristics and improved F1 scores for structure recognition. 線形隣接項の使用は、ヒューリスティックスの使用を減少させ、構造認識のためのf1スコアを改善した。
訳抜け防止モード: ヒューリスティックスの使用を減らしたリチリニア・アジャシアンスの使用 構造認識のためのF1スコアの改善。
0.63
Our final output comes out as an XML that contains bounding boxes along with the row and column spans for every cell given a table image. 最終的な出力は、テーブルイメージが与えられたすべてのセルの行と列と共にバウンディングボックスを含むXMLとして出力されます。 0.79
Document Alignment #Train #Test Constraint Image Image Dataset Domain 156 ICDAR-2013 Business 558 Business UNLV cTDaR Business 150 3K SciTSR Scientific 9K Table2Latex Scientific 1K Scientific TableBank PubTabNet Scientific 40K 10K FinTabNet Business TUCD (our) Business 4.5K Document Alignment #Train #Test Constraint Image Dataset Domain 156 ICDAR-2013 Business 558 Business UNLV cTDaR Business 150 3K SciTSR Scientific 9K Table2Latex Scientific 1K Scientific TableBank PubTabNet Scientific 40K 10K FinTabNet Business TUCD (our) Business 4.5K 0.46
×✓× 600 × 12K × 447K × 145K × 420K × 91K ✓ - ×××600×12k×447k×145k×420k×91k〜 0.71
Table 1. Presents statistics of datasets for table structure recognition. 表1。 表構造認識のためのデータセットの統計情報を示す。 0.71
Only TableBank [17] is dedicated for logical table structure recognition. 論理テーブル構造認識専用のテーブルバンク[17]のみである。 0.90
All other datasets are used for physical table structure recognition. 他の全てのデータセットは物理テーブル構造認識に使用される。 0.76
3.4. Datasets 3.4. データセット 0.49
Most datasets [22, 4, 6, 17, 42, 41] use words or cell content as low-level entities to build inter-tabular relationships. ほとんどのデータセット [22, 4, 6, 17, 42, 41] は、語彙間関係を構築するために低レベルのエンティティとして単語またはセルコンテンツを使用する。
訳抜け防止モード: ほとんどのデータセット[22, 4, 6, 17, 42] 41 ]低レベルのエンティティとして単語やセルコンテンツを使用し,相互関係を構築する。
0.73
Similarly, there exist inconsistencies in the datasets for predicting the physical or logical structure of tables. 同様に、テーブルの物理的構造や論理的構造を予測するデータセットには矛盾がある。 0.75
This presents a fundamental challenge to evaluate and compare various methods for table structure recognition directly. これはテーブル構造認識の様々な手法を直接評価し比較する上での根本的な課題である。 0.69
[22, 4, 17, 42] introduced many large-scale automatically generated datasets, but they do not accurately represent real-world complex tables as seen in the business documents [41, 27, 8]. [22, 4, 17, 42] 多数の大規模自動生成データセットを導入したが,ビジネス文書[41, 27, 8] に見られるような実世界の複雑な表を正確に表現するものではない。 0.78
Another matter of concern is the style of annotation. もう一つの懸念事項はアノテーションのスタイルである。 0.68
As humans, we think of tables adhering to specific structural and alignment constraints — (i) cells belonging to the same row should start and end 人間として、私たちは特定の構造とアライメントの制約に固執するテーブルを考えます。(i)同じ列に属する細胞は、開始と終了をすべきです。
訳抜け防止モード: 人間としての私たちは、特定の構造に固執するテーブルを考える i)同じ行に属する細胞が開始し、終了する。
0.78
英語(論文から抽出)日本語訳スコア
at the same start-y and end-y coordinates respectively, 同じ開始y座標と終了y座標で 0.65
(ii) cells belonging to the same column should start and end at the same start-x and end-x coordinates respectively, (ii)同じ列に属する細胞は、それぞれ同じ開始xと終了xの座標で開始および終了する。 0.83
(iii) cells starting at column 𝑖 should have the same start-x coordinate as the end-x coordinate of column 𝑖 − 1, (iii) カラム i から始まるセルは、カラム i − 1 の終点 x 座標と同じスタート-x 座標を持つべきである。 0.80
(iv) cells starting at row 𝑖 should have the same start-y coordinate as the end-y coordinate of row 𝑖 − 1, (iv)行から開始する細胞は、行i − 1の終端y座標と同じ開始y座標を持つべきである。 0.83
(v) no overlap between any pair of table cells. (v)一対のテーブルセル間に重なりがない。 0.79
Presently, UNLV [27] is the only dataset where ground-truth preserves this inherent structural alignment between cells. 現在UNLV[27]は、基底構造が細胞間の構造的アライメントを保持する唯一のデータセットである。 0.69
However, this dataset is limited in size, language, and domain variations for evaluating a deep learning-based method. しかし、このデータセットは深層学習に基づく手法を評価するためのサイズ、言語、領域のバリエーションに限られている。 0.69
Other datasets [4, 42, 41, 8] have annotations such that a cell’s bounding box is the smallest rectangle that encapsulates its content. 他のデータセット [4, 42, 41, 8] には、セルのバウンディングボックスがそのコンテンツをカプセル化する最小の矩形であるような注釈がある。 0.78
This leads to nonannotation for empty cells and loss of alignment between cells in the same and adjacent rows/columns. これにより、空の細胞に対する注釈がなくなり、同じ行や列内の細胞間のアライメントが失われる。 0.65
TUCD dataset is dedicated to evaluation of cells detection and structure recognition for business documents. TUCDデータセットは、ビジネス文書の細胞検出と構造認識に特化している。 0.79
It consists of 4500 table images collected from the publicly available annual reports in English and non-English languages (e g , French, Japanese, Russian, and others) of more than ten years from twenty-nine different companies1. 英語と非英語(例、フランス語、日本語、ロシア語など)の公募年次報告書から収集された4500枚の表画像からなり、29の異なる企業から10年以上にわたって集められている。 0.66
The ground truth XML for a table image contains the coordinates of bounding boxes of cells and their row and column spans. テーブルイメージの基底真理XMLは、セルの境界ボックスとその行と列の幅の座標を含む。 0.74
Table 1 lists the statistics of different structure recognition datasets available for training and testing. 表1は、トレーニングとテストで利用可能なさまざまな構造認識データセットの統計をリストアップする。 0.71
3.5. Training and Evaluation 3.5. 研修・評価 0.48
We use FinTabNet [41] dataset to train TOD-Net for cell, row, and column detection. FinTabNet [41]データセットを使用して、セル、行、列検出のためにTOD-Netをトレーニングします。 0.63
Since FinTabNet has bounding boxes wrapped around the cell’s content, we pre-process the ground truth to obtain cell level coordinates (refer supplementary paper)2. FinTabNetは、セルの内容を囲むバウンディングボックスを持っているので、地下の真実を前処理して、セルレベルの座標(補充紙を参照)2を得る。
訳抜け防止モード: FinTabNetには、セルのコンテンツの周りにバウンディングボックスがある。 we pre - process the ground truth 細胞レベル座標(補充紙を参照)2を得る。
0.76
The resulting dataset follows all the constraints that we model in the TOD-Net. 得られたデータセットは、TOD-Netでモデル化するすべての制約に従っています。 0.60
For evaluation also, we pre-process ICDAR-2013 [8], cTDaR [7], SciTSR [4], PubTabNet [42] and FinTabNet [41] datasets before computing IoU with the corresponding predictions. また,ICDAR-2013 [8],cTDaR [7],SciTSR [4],PubTabNet [42],FinTabNet [41]をIoU計算の前に前処理した。
訳抜け防止モード: 評価のため, プロセスICDAR-2013 [8 ]。 cTDaR [ 7 ], SciTSR [ 4 ], PubTabNet [ 42 ] そして、IoU計算の前にFinTabNet [41 ]データセットを対応する予測で処理します。
0.82
Since UNLV [27] and TUCD datasets already have annotations for cells adhering to alignment constraints, we directly used them for evaluation. UNLV[27]とTUCDデータセットは、アライメント制約に固執する細胞に対するアノテーションをすでに持っているので、評価にそれらを直接使用する。 0.64
Further, during training and evaluation, we use the non-maximal suppression threshold of 0.8 during proposal generation to reduce the false negatives substantially. さらに, トレーニングおよび評価において, 提案生成中の0.8の非最大抑制閾値を用いて偽陰性を大幅に低減する。 0.78
We train TSR-Net in two steps: In the first stage, we use pre-processed ground-truth cell boxes and corresponding start-row, start-column, end-row, and end-column indices to generate target rectilinear adjacency matrices. まず,TSR-Netを2段階に分けてトレーニングする。第1段階では,前処理した接地木箱と,対応する開始列,開始列,終了列,終了列のインデックスを用いて,目標の直線隣接行列を生成する。 0.56
In the second stage, we generate predictions of the training set using TOD-Net to compute its overlap with the ground-truth to find start-row, start-column, end-row, 第2段階では,TOD-Net を用いたトレーニングセットの予測を行い,その重み付けをグランドトルースと計算し,開始点,開始点,終了点を求める。 0.67
and end-column indices for every predicted box. 予測されたボックスごとにインデックスを末尾に並べます。 0.47
We accordingly generate target rectilinear adjacency matrices for training on the predicted boxes. したがって、予測ボックス上でトレーニングするための目標直交行列を生成する。 0.58
Figure 3. Shows sample ground truth and predicted bounding boxes of cells for evaluation. 図3。 サンプル地盤の真実と予測された細胞の境界ボックスを評価のために示す。 0.69
Assume Cs to be cells with content and ECs to be cells without content. csを含量を持つ細胞、ecsを含量のない細胞と仮定する。 0.70
Also, assume detection of table cells merges EC1 and C6 in row 2 and EC2 and EC3 in row 3. また、テーブルセルがEC1とC6を2列に、EC2とEC3を3列にマージすると仮定する。 0.68
Our proposed evaluation criteria additionally penalize (EC1, EC2) and (EC2, EC3) as false negatives. 提案する評価基準は, (EC1, EC2) と (EC2, EC3) を偽陰性として付加する。 0.72
3.6. Evaluation Protocol 3.6. 評価プロトコル 0.57
In literature, researchers [8, 27, 4] use precision, recall, and F1 scores to evaluate the performance of table’s physical structure recognition. 文献では、[8, 27, 4]精度、リコール、およびf1スコアを用いて、テーブルの物理的構造認識の性能を評価する。 0.71
Adjacency relations for every true positive cell are generated with their horizontal and vertical neighbors to assess structure recognition performance. 構造認識性能を評価するために、各正の正の細胞に対する隣接関係を水平および垂直の近傍で生成する。 0.70
The predicted relation list is then compared with the ground truth list to calculate precision, recall, and F1 scores. そして、予測された関係リストと基底真理リストを比較して精度、リコール、F1スコアを算出する。 0.68
However, these criteria do not consider empty cells that are not surrounded by non-empty cells to calculate performance scores. しかし、これらの基準は、性能スコアを計算するために空でないセルに囲まれていない空セルを考慮しない。
訳抜け防止モード: しかし、これらの基準は空でない細胞に囲まれていない空の細胞を考慮しない 成績を計算します
0.73
Since most existing methods use pre-located table cells as inputs, this does not cause any problem. 既存のほとんどのメソッドは、プリロケーションされたテーブルセルを入力として使用するため、これはいかなる問題も起こさない。 0.56
However, as a result of cell detection, these empty cells might get merged with neighboring cells containing content or false positives, disturbing the overall table structure (as shown in Figure 3). しかし、細胞検出の結果、これらの空の細胞は、内容または偽陽性を含む隣の細胞と融合し、全体のテーブル構造を乱す(図3に示す)。 0.71
Henceforth, for the end-to-end structure recognition of given table images only, we suggest taking into account empty cells to calculate precision, recall, and F1 scores correctly. したがって、与えられたテーブル画像のみのエンドツーエンド構造認識には、精度、リコール、f1スコアを正しく計算するために空セルを考慮に入れることを提案する。 0.67
For table object (row, column, and cell) detection (both empty and with content), we calculate precision, recall, and F1 scores for an IoU threshold of 0.6. テーブルオブジェクト(行,列,セル)の検出(空と内容の両方)については,IoU閾値0.6の精度,リコール,F1スコアを算出する。 0.78
4. Results This work presents a comprehensive analysis of results to understand the impact of architectural designs, modifications to the evaluation criteria, and optimization characteristics. 4.結果 本研究は, 建築設計の影響, 評価基準の変更, 最適化特性を理解するための総合的な分析結果を示す。 0.62
For this purpose, we provide a four-fold analysiscomparative analysis with existing methods in the literature, analysis on varying IoU thresholds for cell detection, an ablation study showing the effectiveness of design choices and impact of loss weights on optimization speed. 本研究の目的は,既存の手法を用いた4次元解析,細胞検出のためのiou閾値の変化の解析,設計選択の有効性と損失重みが最適化速度に及ぼす影響を示すアブレーション研究を提供することである。 0.79
1TUCD dataset is available at https://github.com/s achinraja13/TUCD 2Please refer supplementary material for dataset preprocessing, postprocessing, implementation and additional quantitative and qualitative results. 1TUCDデータセットはhttps://github.com/s achinraja13/TUCD 2Please データセット前処理、後処理、実装、追加の量的および質的な結果のための補助材料を参照してください。 0.47
Comparative Analysis Table 2 shows results comparing our method against previously published on ICDAR2013, SciTSR, ICDAR-19 and TUCD datasets. 比較分析表2は、前述のicdar2013, scitsr, icdar-19, tucdデータセットとの比較結果を示す。 0.75
Please note 注意 0.39
英語(論文から抽出)日本語訳スコア
ICDAR-2013 ICDAR-2013 0.29
SciTSR SciTSR Comp SciTSR SciTSR Comp 0.43
ICDAR-19 TUCD ICDAR-19 TUCD 0.36
Average Over Test Set テストセットの平均値 0.86
Training Dataset ICDAR-13 トレーニングデータセット ICDAR-13 0.63
- - - - - - - - - - - - 0.43
- - - - - 0.96 0.87 0.910.96 0.95 0.95 - - - - - - 0.96 0.87 0.910.96 0.95 0.95 - 0.39
FinTabNet SciTSR SciTSR FinTabNet FinTabNet FinTabNet FinTabNet SciTSR FinTabNet FinTabNet FinTabNet 0.36
EC P↑ R↑ F1↑ P↑ R↑ F1↑ P↑ R↑ F1↑ P↑ R↑ F1↑ P↑ R↑ F1↑ f1 は f1 で、p1 は f1 で、p1 は f1 である。 0.51
Method DeepDeSRT [26] SPLERGE(H) [30] Private SEC 0.87 0.87 0.87 0.92 0.97 0.97 0.91 0.88 0.90 0.70 0.67 0.69 0.87 0.86 0.86 SPLIT [30] Private 0.92 0.90 0.91 0.93 0.91 0.92 0.91 0.88 0.90 0.60 0.57 0.58 0.90 0.89 0.90 TabStruct-Net [24] SciTSR 0.96 0.97 0.96GTE-Cell [41] 0.98 0.97 0.97 0.97 0.95 0.96SEM [40] 0.93 0.98 0.95 0.98 0.99 0.99 0.97 0.99 0.98LGPMA [23] 0.82 0.80 0.81 0.87 0.85 0.86 0.85 0.83 0.84 0.55 0.51 0.53 0.73 0.70 0.72 DeepDeSRT [26] DGCNN† [22, 24] 0.94 0.93 0.94 0.91 0.89 0.90 0.89 0.88 0.89 0.73 0.70 0.71 0.89 0.87 0.88 DGCNN‡ [22, 24] 0.96 0.95 0.96 0.91 0.90 0.91 0.90 0.89 0.89 0.76 0.73 0.74 0.92 0.91 0.91 TabStruct-Net [24] FinTabNet SEC 0.95 0.94 0.95 0.90 0.89 0.90 0.88 0.87 0.87 0.76 0.73 0.75 0.91 0.90 0.90 Ours† 0.95 0.95 0.95 0.92 0.91 0.92 0.92 0.90 0.91 0.72 0.70 0.71 0.91 0.90 0.91 Ours‡ 0.98 0.97 0.97 0.94 0.92 0.93 0.93 0.89 0.91 0.77 0.76 0.77 0.94 0.93 0.93 0.74 0.71 0.73 0.82 0.80 0.81 0.80 0.79 0.79 0.53 0.48 0.50 0.70 0.68 0.69 DeepDeSRT [26] SPLIT [30] 0.83 0.81 0.82 0.89 0.87 0.88 0.87 0.87 0.87 0.68 0.66 0.67 0.82 0.81 0.81 DGCNN† [22, 24] 0.87 0.85 0.86 0.89 0.87 0.88 0.87 0.85 0.86 0.69 0.67 0.68 0.86 0.85 0.85 DGCNN‡ [22, 24] 0.90 0.89 0.89 0.88 0.85 0.86 0.86 0.84 0.85 0.71 0.69 0.70 0.89 0.88 0.89 NEC 0.89 0.87 0.88 0.90 0.87 0.88 0.88 0.86 0.87 0.54 0.49 0.51 0.84 0.83 0.83 TabStruct-Net [24] SciTSR TabStruct-Net [24] FinTabNet 0.90 0.87 0.89 0.88 0.85 0.86 0.86 0.84 0.85 0.70 0.69 0.70 0.88 0.86 0.87 Ours† 0.91 0.90 0.90 0.90 0.86 0.88 0.88 0.84 0.86 0.70 0.67 0.68 0.90 0.88 0.89 FinTabNet Ours‡ 0.93 0.92 0.92 0.91 0.88 0.89 0.89 0.87 0.88 0.73 0.72 0.72 0.92 0.91 0.92 FinTabNet Method DeepDeSRT [26] SPLERGE(H) [30] Private SEC 0.87 0.87 0.87 0.92 0.97 0.97 0.91 0.88 0.90 0.70 0.67 0.69 0.87 0.86 0.86 SPLIT [30] Private 0.92 0.90 0.91 0.93 0.91 0.92 0.91 0.88 0.90 0.60 0.57 0.58 0.90 0.89 0.90 TabStruct-Net [24] SciTSR 0.96 0.97 0.96GTE-Cell [41] 0.98 0.97 0.97 0.97 0.95 0.96SEM [40] 0.93 0.98 0.95 0.98 0.99 0.99 0.97 0.99 0.98LGPMA [23] 0.82 0.80 0.81 0.87 0.85 0.86 0.85 0.83 0.84 0.55 0.51 0.53 0.73 0.70 0.72 DeepDeSRT [26] DGCNN† [22, 24] 0.94 0.93 0.94 0.91 0.89 0.90 0.89 0.88 0.89 0.73 0.70 0.71 0.89 0.87 0.88 DGCNN‡ [22, 24] 0.96 0.95 0.96 0.91 0.90 0.91 0.90 0.89 0.89 0.76 0.73 0.74 0.92 0.91 0.91 TabStruct-Net [24] FinTabNet SEC 0.95 0.94 0.95 0.90 0.89 0.90 0.88 0.87 0.87 0.76 0.73 0.75 0.91 0.90 0.90 Ours† 0.95 0.95 0.95 0.92 0.91 0.92 0.92 0.90 0.91 0.72 0.70 0.71 0.91 0.90 0.91 Ours‡ 0.98 0.97 0.97 0.94 0.92 0.93 0.93 0.89 0.91 0.77 0.76 0.77 0.94 0.93 0.93 0.74 0.71 0.73 0.82 0.80 0.81 0.80 0.79 0.79 0.53 0.48 0.50 0.70 0.68 0.69 DeepDeSRT [26] SPLIT [30] 0.83 0.81 0.82 0.89 0.87 0.88 0.87 0.87 0.87 0.68 0.66 0.67 0.82 0.81 0.81 DGCNN† [22, 24] 0.87 0.85 0.86 0.89 0.87 0.88 0.87 0.85 0.86 0.69 0.67 0.68 0.86 0.85 0.85 DGCNN‡ [22, 24] 0.90 0.89 0.89 0.88 0.85 0.86 0.86 0.84 0.85 0.71 0.69 0.70 0.89 0.88 0.89 NEC 0.89 0.87 0.88 0.90 0.87 0.88 0.88 0.86 0.87 0.54 0.49 0.51 0.84 0.83 0.83 TabStruct-Net [24] SciTSR TabStruct-Net [24] FinTabNet 0.90 0.87 0.89 0.88 0.85 0.86 0.86 0.84 0.85 0.70 0.69 0.70 0.88 0.86 0.87 Ours† 0.91 0.90 0.90 0.90 0.86 0.88 0.88 0.84 0.86 0.70 0.67 0.68 0.90 0.88 0.89 FinTabNet Ours‡ 0.93 0.92 0.92 0.91 0.88 0.89 0.89 0.87 0.88 0.73 0.72 0.72 0.92 0.91 0.92 FinTabNet 0.23
FinTabNet FinTabNet FinTabNet Private FinTabNet FinTabNet FinTabNet FinTabNet Private FinTabNet FinTabNet 0.36
- - - - - - - - - - - - 0.43
- - - - - - - - - - - - 0.43
Table 2. Compares various methods for table structure recognition on ICDAR-2013, SCI-TSR, SCI-TSR COMP, ICDAR-19 and TUCD datasets. 表2。 ICDAR-2013, SCI-TSR, SCI-TSR COMP, ICDAR-19, TUCDデータセットのテーブル構造認識法の比較を行った。 0.70
Scores in italics are directly reported from corresponding papers. イタリックのスコアは、対応する論文から直接報告される。 0.55
For others, we use open source implementations and pre-trained models released by authors. オープンソース実装や、著者がリリースした事前トレーニングモデルも使用しています。 0.59
For DeepDeSRT [26], we use our implementation. DeepDeSRT [26]では、実装を使用します。 0.73
EC: indicates evaluation criteria, SEC: indicates standard evaluation criteria, and NEC: indicates new evaluation criteria. EC:評価基準、SEC:標準評価基準、NEC:新しい評価基準。
訳抜け防止モード: EC : 評価基準, SEC : 標準評価基準を示し、NEC : 新しい評価基準を示す。
0.72
P: indicates precision, R: indicates recall, and F1: indicates F1 score. P:精度、R:リコール、F1:スコア。 0.38
TOD-Net†: indicates TOD-Net for direct cell detection and TOD-Net‡: indicates cell detection using intersection of TOD-Net results row and column predictions, DGCNN† indicates TOD-Net†+DGCNN+PP, DGCNN‡ indicates TOD-Net‡+DGCNN+PP TS-Net indicates TabStruct-Net, Ours† indicates TOD-Net†+TSR+PP, Ours‡ indicates TOD-Net‡+TSR+PP and (H) indicates dataset specific heuristics. TOD-Netは直接細胞検出のためのTOD-Netを示し、TOD-NetはTOD-Netの結果行と列予測の交差を用いた細胞検出を示し、DGCNNはTOD-Netの+DGCNN+PPを示し、DGCNNはTOD-Netの+DGCNN+PP TS-NetはTabStruct-Netを示す。 0.64
For comparison on ICDAR-2013 using SEC, ICDAR-2013 text-based evaluation was used. SECを用いたICDAR-2013の比較では,ICDAR-2013テキストによる評価を行った。 0.60
All other results are based on a fixed IoU threshold of 0.6. 他の全ての結果は、固定IoU閾値0.6に基づいている。 0.66
For the NEC, we additionally consider empty cells for evaluation. NECでは, 空の細胞を評価対象とする。 0.68
that in the first section of the table with evaluation using Standard Evaluation Criteria (SEC), we use ICDAR2013 text-based measure for ICDAR-2013 dataset. 標準評価基準(SEC)を用いた評価表の第1章では、ICDAR-2013データセットにICDAR2013テキストベースの尺度を用いている。 0.78
On the contrary, corresponding SEC, we use IoU overlap based ICDAR-2019 evaluation criterion on SciTSR, ICDAR-19 and TUCD datasets. それに対して、対応するSECでは、SciTSR、ICDAR-19、TUCDデータセットに基づくIoUオーバーラップに基づくICDAR-2019評価基準を用いる。 0.63
Further, for the second section of the table, that uses New Evaluation Criteria (NEC), we modify the IoU based ICDAR-2019 evaluation to additionally take into account adjacency relations between empty-empty and empty-non empty cells. さらに、新しい評価基準(NEC)を用いた表の第2節では、空空と空の空の細胞間の隣接関係を考慮し、IoUをベースとしたICDAR-2019の評価を修正した。 0.73
For evaluating ICDAR-2013 dataset using NEC, we modify the ground truth to obtain cell-level boxes (as explained in Section 3.5) and extend those to full rows and columns to obtain bounding box coordinates for empty cells (assuming no empty cells are multi-row/column spanning). NEC を用いた ICDAR-2013 データセットの評価には,セルレベルボックス(第3.5 節で説明されている)の取得と,それらをフル行や列に拡張して空のセルのバウンディングボックス座標を求める(空のセルがマルチロー/カラムスパンニングでない場合)。 0.72
Details of this step are provided in the supplementary section. このステップの詳細は補足セクションに記載されている。 0.72
For a fair comparison of our method against DGCNN [22], we use TOD-Net to obtain cell bounding boxes, obtain row and column adja- DGCNN [22] に対する本手法の公正比較のために,TOD-Net を用いてセルバウンディングボックス,行および列アドジャを得る。 0.81
cency matrices using DGCNN [22] and use the open-source post-processing provided by [24]. DGCNN[22]を使用してcency行列を作成し、[24]が提供するオープンソースの後処理を使用する。 0.58
In order to compare our method against others on TUCD dataset, we develop our implementation of DeepDeSRT [26], and use open source implementations of DGCNN (TIES) [22], SPLERGE [30], and TabStruct-Net [24]. TUCDデータセット上の他の手法と比較するため,DeepDeSRT [26]の実装を開発し,DGCNN (TIES) [22], SPLERGE [30], TabStruct-Net [24] のオープンソース実装を利用する。 0.76
For others, we directly report results from the corresponding papers. 他の例では、対応する論文の結果を直接報告する。 0.64
From the table, it is evident that formulating the problem using rectilinear adjacencies instead of row/column adjacency avoids errors in long visual ranges, relaxes heuristics in the post-processing method. この表から,行/列の隣接ではなく直線の隣接を用いて問題を定式化することは,長い視覚範囲の誤差を回避し,後処理法におけるヒューリスティックスを緩和することが明らかとなった。 0.54
Our method outperforms previous state-of-the-art on all three datasets by a reasonable difference of average F1-score on structure recognition. 提案手法は,構造認識におけるf1-scoreの平均値の合理的な差によって,従来の3つのデータセットを上回っている。 0.49
We further observe that empty cells account for an average of 12.3% across UNLV and ICDAR-2013 datasets, where our method outperforms TabStruct-Net by 4.2% F1 score. さらに、空の細胞はUNLVとICDAR-2013データセット全体で平均12.3%を占めており、TabStruct-Netのスコアは4.2%である。 0.62
Our solution however fails for very sparse tables where most of the cells are empty. しかし、私たちのソリューションは、ほとんどの細胞が空である非常に希薄なテーブルでは失敗します。 0.59
We will add some qualitative 定性的なものを追加します 0.53
英語(論文から抽出)日本語訳スコア
FinTabNet ICDAR-13 Sci-TSR TUCD FinTabNet ICDAR-13 Sci-TSR TUCD 0.33
Method IoU TSR-F1↑ TSR-F1↑ TSR-F1↑ TSR-F1↑ TS-Net Ours† Ours‡ TS-Net Ours† Ours‡ TS-Net Ours† Ours‡ TS-Net Ours† Ours‡ TS-Net Ours† Ours‡ TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours TS-Net Ours の略。 0.24
0.898 0.5 0.906 0.944 0.848 0.6 0.892 0.920 0.704 0.7 0.802 0.868 0.496 0.8 0.561 0.680 0.120 0.9 0.325 0.404 0.898 0.5 0.906 0.944 0.848 0.6 0.892 0.920 0.704 0.7 0.802 0.868 0.496 0.8 0.561 0.680 0.120 0.9 0.325 0.404 0.20
0.904 0.903 0.904 0.886 0.903 0.904 0.720 0.820 0.852 0.597 0.675 0.748 0.292 0.307 0.454 0.904 0.903 0.904 0.886 0.903 0.904 0.720 0.820 0.852 0.597 0.675 0.748 0.292 0.307 0.454 0.20
0.876 0.880 0.894 0.864 0.878 0.894 0.682 0.746 0.823 0.565 0.637 0.714 0.255 0.296 0.368 0.876 0.880 0.894 0.864 0.878 0.894 0.682 0.746 0.823 0.565 0.637 0.714 0.255 0.296 0.368 0.20
0.900 0.889 0.918 0.871 0.889 0.918 0.722 0.797 0.839 0.582 0.659 0.735 0.289 0.301 0.408 0.900 0.889 0.918 0.871 0.889 0.918 0.722 0.797 0.839 0.582 0.659 0.735 0.289 0.301 0.408 0.20
addition of pairwise overlapping loss improved precision by 1.1% and channel-wise multiplication of sparse channel weights further improved detection performance by 2.1%. ペアワイドオーバーラップ損失の追加により精度が1.1%向上し、スパースチャネル重み付けのチャネルワイド乗算により検出性能が2.1%向上した。 0.68
Also, we observe that with the same weight initialization, the model with dynamic loss weights converges 15% faster and slightly better by 0.4%. また, 同じ重み初期化により, 動的損失重み付きモデルは15%速く, わずかに0.4%良く収束することがわかった。 0.88
Method Mask R-CNN+AL Mask R-CNN+AL+CL Mask R-CNN+AL+CL+OL Mask R-CNN +AL+ CL+OL+ROI Att. メソッドマスクR-CNN+ALマスクR-CNN+AL+CLマスクR-CNN+AL+CL+OLマスクR-CNN+AL+OL+ROIアット 0.37
Mask R-CNN+AL+ CL+OL+ROI Att. マスクR-CNN+AL+CL+OL+ROI。 0.42
+LossWT P↑ 0.880 0.891 0.907 +LossWT パー 0.880 0.891 0.907 0.42
Cell Detection F1↑ 0.871 0.879 0.890 細胞検出F1 0.871 0.879 0.890 0.53
R↑ 0.862 0.868 0.873 0.862 0.868 0.873 である。 0.32
0.922 0.900 0.922 0.900 0.29
0.911 0.926 0.911 0.926 0.29
0.904 0.915 0.904 0.915 0.29
Table 3. Shows the comparison between the performances of the proposed network and TabStruct-Net (TS-Net) [24] on cell detection and table structure recognition of dataset over various IoU thresholds.TSR: indicates table structure recognition. 表3。 提案したネットワークとTabStruct-Net(TS-Net ) [24] のセル検出と各種IoUしきい値上でのデータセットのテーブル構造認識の比較を示す。 0.57
We use FinTabNet [41] dataset for training. FinTabNet [41]データセットをトレーニングに使用しています。 0.70
examples in the supplementary material. Since rectilinear adjacencies are predicted between every pair of cells, inference time is in the order of square of number of cells located. 補充材料の例です 各セル間では直交隣接が予測されるので、推定時間は配置されたセル数の二乗数である。 0.65
For table images with 20 cells, inference time is about 10 seconds which goes upto 50 seconds for images with 200 cells. 20セルのテーブルイメージの場合、推定時間はおよそ10秒で、200セルのイメージでは50秒になる。
訳抜け防止モード: 20セルのテーブルイメージの場合、推測時間はおよそ10秒である。 200の細胞を持つ画像は 50秒までかかります
0.82
F1 based on Varying IoU Thresholds For table cell detection, the IoU threshold becomes imperative as the penalty for loss of content or additional content detected from a localized table cell is high. Varying IoU Thresholdsに基づくF1 テーブルセル検出では、IoU閾値は、ローカライズされたテーブルセルから検出されたコンテンツまたは追加コンテンツが失われるペナルティとして必須となる。 0.75
Higher IoU also accounts for better structure recognition performance. また、IoUは構造認識性能も向上している。 0.63
Hence, a method’s robustness can be established based on its performance under a higher IoU threshold. したがって、メソッドの堅牢性は、高いIoU閾値下でのパフォーマンスに基づいて確立することができる。 0.71
For this purpose, we evaluate the previously established benchmark [24] with our approach on IoU thresholds varying from 0.5 up to 0.9 as shown in Table 3 according to our updated evaluation criteria that take into account empty cells present along the table extreme boundary regions. そこで本研究では, 表3に示すように, iou閾値を0.5から0.9まで変化させる手法を用いて, テーブルの極端境界領域に存在する空セルを考慮に入れた評価基準を更新することにより, 従来確立したベンチマーク [24] を評価する。 0.75
Ablation Study Table 4 shows the ablation study of various enhancements to our TOD-Net. アブレーション研究テーブル4は、tod-netの各種機能強化のアブレーション研究を示す。 0.66
We observe that the addition of continuity loss improved the average F1 score by 0.8%. 連続損失の増加により平均F1スコアは0.8%向上した。 0.73
It especially proved helpful for table cells having a varying amount of text in table headers. 特にテーブルヘッダーのテキスト量が異なるテーブルセルで有効であることが証明された。 0.73
For text consisting of large empty spaces with a very little text region, continuity loss helped detect the boxes that adhere to the inherent table alignment. テキスト領域が非常に小さい大きな空の空間からなるテキストの場合、連続性損失は、固有のテーブルアライメントに固執するボックスを検出するのに役立った。 0.76
We further observed that the 我々はさらにそのことを観察した。 0.47
Table 4. Shows the ablation study for cell detection on various structural constraints on baseline (Mask R-CNN+AL) [24]. 表4。 ベースライン上の様々な構造的制約(Mask R-CNN+AL) [24]における細胞検出のためのアブレーション研究を示す。 0.53
We use new evaluation criteria with IoU threshold = 0.6. IoU閾値=0.6の新しい評価基準を用いる。 0.77
TOD: indicates table object detection, AL: indicates alignment loss, CL: indicates continuity loss, OL: indicates overlapping loss, ROI Att. TOD:はテーブルオブジェクト検出、AL:はアライメント損失、CL:は連続損失、OL:は重複損失、ROI Att。
訳抜け防止モード: TOD :はテーブルオブジェクトの検出を示し、AL :はアライメント損失を示す。 CL : 連続損失 OL : 重複損失,ROI Att。
0.78
: indicates ROI attention, and LossWT: indicates loss weights. ROI は ROI の注意,LosWT: は損失重みを示します。 0.68
We use FinTabNet [41] dataset for training and evaluation. FinTabNet [41]データセットをトレーニングと評価に使用しています。 0.73
5. Conclusion Our approach advances both the formulation and the empirical performances compared to the state-of-the-art methods. 5.結論 提案手法は,最先端手法と比較して定式化と経験的性能の両方を向上させる。 0.64
Major contributions include: 主な貢献は以下の通り。 0.53
(i) a formulation possibly closer to how human perceives tables (i)人間が表をどのように知覚するかに近い定式化 0.70
(ii) architectural improvements to model problem-specific constraints, (ii)問題固有の制約をモデル化するアーキテクチャの改善 0.75
(iii) an adaptation of optimization, (iii)最適化の適応 0.35
(iv) a novel TUCD dataset for evaluation and (iv)評価及び評価のための新規なtucdデータセット 0.69
(iv) empirical evaluation extending the analysis to high IoU thresholds that improve practical usability. (4) 実用性を向上させるための高IoUしきい値まで解析を拡張した経験的評価。 0.67
Our work will advance the table understanding literature with immediate effect for better information extraction from business documents. 我々の研究は、ビジネス文書からより良い情報を取り出すために、直ちに効果のある文献を理解するためのテーブルを前進させます。 0.54
We also believe, our insights in analyzing images with dense structured objects will impact wider categories of images captured in industrial vision setting, and crowded outdoor. また、濃密な構造化されたオブジェクトで画像を分析する私たちの洞察は、産業的なビジョン設定や混雑した屋外で撮影された画像のカテゴリに影響を及ぼすと信じています。 0.56
Also, our dataset and improved evaluation can serve for a more robust evaluation of table structure. また,我々のデータセットと改良された評価は,テーブル構造をより堅牢な評価に役立てることができる。 0.72
Further, the reasoning behind using trainable loss weights could be extended to niche domain specific problems (understanding of graphs/charts and establishing correct reading order from document images). さらに、トレーニング可能な損失重みの使用の背景にある理由をニッチなドメイン固有の問題(グラフ/チャートの理解とドキュメント画像からの正しい読み出し順序の確立)にまで拡張することができる。 0.64
Acknowledgment This work is partly supported by MEITY, Government 承認 この作業は、一部は MEITY, Government が支援している。 0.55
of India. インド出身。 0.66
英語(論文から抽出)日本語訳スコア
References [1] Darshan Adiga, Shabir Ahmad Bhat, Muzaffar Bashir Shah, and Viveka Vyeth. 参照: [1] Darshan Adiga、Shabir Ahmad Bhat、Muzaffar Bashir Shah、Viveka Vyeth。 0.36
Table structure recognition based on cell relationship, a bottom-up approach. セル関係に基づくテーブル構造認識 -ボトムアップアプローチ- 0.72
In RANLP, 2019. 2019年、LALP。 0.55
[2] Junwei Bao, Duyu Tang, Nan Duan, Zhao Yan, Yuanhua Lv, Ming Zhou, and Tiejun Zhao. [2]ジュンヴァイ・バオ、ジュウ・タン、ナン・ドゥアン、ジャオ・ヤン、元華 lv、明州、ティージャン・ジャオ。
訳抜け防止モード: [2]ジュンヴァイ・バオ、デュユ唐、ナン・ドゥアン zhao yan氏、 yuanhua lv氏、ming zhou氏、tiejun zhao氏。
0.56
Table-to-text: Describing table region with natural language. Table-to-text: 自然言語でテーブル領域を記述する。 0.64
In AAAI, 2018. 2018年、AAAI。 0.59
[3] Zhaowei Cai and Nuno Vasconcelos. [3]Zhaowei Cai と Nuno Vasconcelos。 0.73
Cascade RCNN: Delving into high quality object detection. Cascade RCNN: 高品質なオブジェクト検出を実現する。 0.91
In CVPR, 2018. 2018年、CVPR。 0.65
[4] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, and Xian-Ling Mao. [4]Zewen Chi、Heyan Huang、Heng-Da Xu、Houjin Yu、Wanxuan Yin、Xian-Ling Mao。 0.41
Complicated table structure recognition. 複雑なテーブル構造認識。 0.85
arXiv, 2019. arxiv、2019年。 0.47
[5] Li Deng, Shuo Zhang, and Krisztian Balog. [5]Li Deng、Shuo Zhang、Krisztian Balog。 0.32
Table2Vec: Neural word and entity embeddings for table population and retrieval. Table2Vec: テーブル人口と検索のためのニューラルワードとエンティティ埋め込み。 0.80
In SIGIR, 2019. 2019年、ジギル。 0.65
[6] Yuntian Deng, David Rosenberg, and Gideon Mann. 6]ユンティアン・デン、デビッド・ローゼンバーグ、ギデオン・マン。 0.43
Challenges in end-to-end neural scientific table recognition. エンド・ツー・エンドの神経科学テーブル認識における課題 0.56
In ICDAR, 2019. ICDAR、2019年。 0.66
[7] L. Gao, Y. Huang, H. D´ejean, J. Meunier, Q. Yan, Y. Fang, F. Kleber, and E. Lang. [7] L. Gao, Y. Huang, H. D ́ejean, J. Meunier, Q. Yan, Y. Fang, F. Kleber, E. Lang。
訳抜け防止モード: He 7 ] L. Gao, Y. Huang, H. D ́ejean. J. Meunier, Q. Yan, Y. Fang, F. Kleber とE・ラング。
0.84
ICDAR 2019 competition on table detection and recognition (cTDaR). ICDAR 2019 テーブルの検出と認識に関するコンペティション (cTDaR)。 0.86
In ICDAR, 2019. ICDAR、2019年。 0.66
[8] Max G¨obel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi. 8]マックス・g・ショベル、タミル・ハッサン、エルメリンダ・オロ、ジョルジオ・オルシ。 0.55
ICDAR 2013 table competition. ICDAR 2013テーブルコンペティション。 0.72
In ICDAR, 2013. 2013年、CDAR。 0.69
[9] E Green and M Krishnamoorthy. 9]E GreenとM Krishnamoorthy。 0.34
Recognition of tables using table grammars. 表文法を用いた表の認識 0.71
In Annual Symposium on Document Analysis and Information Retrieval, 1995. 1995年度資料分析・情報検索シンポジウムに参加して 0.66
[10] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross [10]カイミング、ジョージア・グキオクサリ、ピョートル・ドル、ロス 0.53
Girshick. Mask R-CNN. ガーシック マスクR-CNN。 0.49
In CVPR, 2017. 2017年、CVPR。 0.68
[11] Martin Holeˇcek, Anton´ın Hoskovec, Petr Baudiˇs, and Pavel Klinger. 11]マルティン・ホールシュチェク、アントン・ホスコヴェック、ペトル・ボーデシュ、パヴェル・クリンガー。 0.43
Line-items and table understanding in structured documents. 構造化文書における線分と表理解 0.75
arXiv, 2019. arxiv、2019年。 0.47
[12] Jianying Hu, Ramanujan S Kashi, Daniel P Lopresti, and Gordon Wilfong. [12]Jianying Hu、Ramanujan S Kashi、Daniel P Lopresti、Gordon Wilfong。 0.33
Medium-independent table detection. 中独立テーブル検出。 0.74
In Document Recognition and Retrieval VII, 1999. 資料認識と検索』第7巻、1999年。 0.53
[13] Katsuhiko Itonori. Table structure recognition based on textblock arrangement and ruled line position. 【13】伊藤典勝彦 テキストブロック配置と支配線位置に基づくテーブル構造認識 0.61
In ICDAR, 1993. 1993年、CDAR。 0.69
[14] Saqib Ali Khan, Syed Muhammad Daniyal Khalid, Muhammad Ali Shahzad, and Faisal Shafait. 14]Saqib Ali Khan, Syed Muhammad Daniyal Khalid, Muhammad Ali Shahzad, Faisal Shafait。 0.36
Table structure extraction with Bi-directional Gated Recurrent Unit networks. 双方向ゲートリカレントユニットネットワークを用いたテーブル構造抽出 0.83
In ICDAR, 2019. ICDAR、2019年。 0.66
[15] Thomas G Kieninger. トーマス・G・キニングナー(Thomas G Kieninger)。 0.55
Table structure recognition In Document based on robust block segmentation. 表構造認識の文書化 堅牢なブロックセグメンテーションに基づいています 0.76
Recognition V, 1998. 1998年、第5回。 0.44
[16] Nataliya Le Vine, Matthew Zeigenfuse, and Mark Rowan. 16]ナタリヤ・ル・ヴィネ、マシュー・ツァイゲンヒューズ、マーク・ローワン。 0.42
Extracting tables from documents using conditional generative adversarial networks and genetic algorithms. 条件付き生成敵ネットワークと遺伝的アルゴリズムを用いた文書からのテーブル抽出 0.80
In IJCNN, 2019. 2019年、IJCNN。 0.74
[17] Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li. 【17】明海李、レイ・キュイ、シャオハン・フアン、フル・イ、明周、周純。 0.46
TableBank: Table benchmark for image-based table detection and recognition. tablebank: 画像に基づくテーブル検出と認識のためのテーブルベンチマーク。 0.75
In ICDAR, 2019. ICDAR、2019年。 0.66
[18] Kyosuke Nishida, Kugatsu Sadamitsu, Ryuichiro Higashinaka, and Yoshihiro Matsuo. [18]西田教輔、久月貞光、東中龍一郎、松尾義弘 0.52
Understanding the semantic structures of tables with a hybrid deep neural network architecture. ハイブリッドディープニューラルネットワークアーキテクチャでテーブルの意味構造を理解する。 0.62
In AAAI, 2017. 2017年、AAAI。 0.62
[19] Mehrdad Noori, Ali Bahri, and Karim Mohammadi. [19]Mehrdad Noori、Ali Bahri、Karim Mohammadi。 0.29
Attention-guided version of 2d UNet for automatic Brain Tumor segmentation. 自動脳腫瘍分割のための注意誘導型2d unet 0.77
In ICCKE, 2019. 2019年、ICCKE。 0.73
[20] Shubham Singh Paliwal, D Vishwanath, Rohit Rahul, Monika Sharma, and Lovekesh Vig. [20] Shubham Singh Paliwal, D Vishwanath, Rohit Rahul, Monika Sharma, Lovekesh Vig。 0.38
TableNet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images. TableNet: スキャンした文書画像からエンドツーエンドのテーブル検出と表データ抽出のためのディープラーニングモデル。 0.74
In ICDAR, 2019. ICDAR、2019年。 0.66
[21] Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure. 21]デダッシュ・プラサード、アヤン・ガッパル、クシティ・カパディーニ、マニッシュ・ビザヴェ、カヴィタ・スルタンプル。 0.41
CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents. CascadeTabNet: 画像ベースのドキュメントからエンドツーエンドのテーブルの検出と構造認識のためのアプローチ。 0.80
In CVPRW, 2020. CVPRW、2020年。 0.72
[22] Shah Rukh Qasim, Hassan Mahmood, and Faisal Shafait. Shah Rukh Qasim, Hassan Mahmood, Faisal Shafait. [22] Shah Rukh Qasim, Hassan Mahmood, Faisal Shafait. 0.34
Rethinking table parsing using graph neural networks. グラフニューラルネットワークを用いたテーブル解析の再考 0.73
In ICDAR, 2019. ICDAR、2019年。 0.66
[23] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, and Fei Wu. [23] 梁清, ザイシン李, zhanzhan cheng, peng zhang, shiliang pu, yi niu, wenqi ren, wenming tan, fei wu
訳抜け防止モード: 【23歳】梁清、在シン・李、張山陳、 peng zhang, shiliang pu, yi niu, wenqi ren, wenming tanとfei wuだ。
0.72
Lgpma: Complicated table structure recognition with local and global pyramid mask alignment. lgpma: ローカルおよびグローバルピラミッドマスクアライメントを用いた複雑なテーブル構造認識。 0.87
arXiv preprint arXiv:2105.06224, 2021. arXiv preprint arXiv:2105.06224, 2021 0.40
[24] Sachin Raja, Ajoy Mondal, and C. V. Jawahar. [24]サチン・ラージャ、アホイ・モンダル、C.V.ジャワール。 0.47
Table structure recognition using top-down and bottom-up cues. トップダウンとボトムアップを用いたテーブル構造認識 0.81
In ECCV, 2020. 2020年、ECCV。 0.70
[25] Pau Riba, Anjan Dutta, Lutz Goldmann, Alicia For´nes, Oriol Ramos, Lla´dos, and Josep. [25]Pau Riba, Anjan Dutta, Lutz Goldmann, Alicia For ́nes, Oriol Ramos, Lla ́dos, Josep。 0.43
Table detection in invoice documents by graph neural networks. グラフニューラルネットワークによる請求書文書のテーブル検出 0.72
In ICDAR, 2019. ICDAR、2019年。 0.66
[26] Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed. 26]セバスチャン・シュライバー、ステファン・アグネ、イヴォ・ウルフ、アンドレアス・デンゲル、シェラズ・アフメド 0.47
DeepDeSRT: Deep learning for detection and structure recognition of tables in document images. DeepDeSRT: ドキュメントイメージ内のテーブルの検出と構造認識のためのディープラーニング。 0.87
In ICDAR, 2017. 2017年、ICDAR。 0.71
[27] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel. Asif Shahab氏、Faisal Shafait氏、Thomas Kieninger氏、Andreas Dengel氏。 0.65
An open approach towards the benchmarking of table structure recognition systems. 表構造認識システムのベンチマーク化へのオープンアプローチ 0.72
In DAS, 2010. 2010年、DAS。 0.71
[28] Ray Smith. レイ・スミス(Ray Smith)。 0.57
An overview of the Tesseract OCR engine. Tesseract OCRエンジンの概要 0.46
In ICDAR, 2007. 2007年、CDAR。 0.66
英語(論文から抽出)日本語訳スコア
[29] Mingxing Tan, Ruoming Pang, and Quoc V Le. [29]明教タン、ルームングパン、クオックVLe。 0.45
Efficientdet: Scalable and efficient object detection. Efficientdet: スケーラブルで効率的なオブジェクト検出。 0.86
In CVPR, 2020. CVPR、2020年。 0.72
[30] Christopher Tensmeyer, Vlad Morariu, Brian Price, Scott Cohen, and Tony Martinezp. Christopher Tensmeyer氏、Vlad Morariu氏、Brian Price氏、Scott Cohen氏、Tony Martinezp氏。 0.35
Deep splitting and merging for table structure decomposition. 表構造分解のための深い分割とマージ 0.77
In ICDAR, 2019. ICDAR、2019年。 0.66
[31] Scott Tupaj, Zhongwen Shi, C Hwa Chang, and Hassan Alam. [31]Scott Tupaj、Zhongwen Shi、C Hwa Chang、Hassan Alam。 0.32
Extracting tabular information from text files. テキストファイルから表情報を抽出する。 0.72
EECS Department, Tufts University, Medford, USA, 1996. 米国メドフォードのタフツ大学EECS部門、1996年。 0.63
[32] Nam Van Nguyen, Hanh Vu, Arthur Zucker, Younes Belkada, Hai Van Do, Doanh Ngoc-Nguyen, Thanh Tuan Nguyen Le, and Dong Van Hoang. 32]ナム・ヴァン・グエン、ハン・ヴ、アーサー・ズッカー、ユネス・ベルカダ、ハイ・ヴァン・ド、ドアン・ngoc-nguyen、タン・トゥアン・グエン・ル、ドン・ヴァン・フーアン。
訳抜け防止モード: [32 ]Nam Van Nguyen, Hanh Vu, Arthur Zucker, Younes Belkada, Hai Van Do, Doanh Ngoc - Nguyen サン・トゥアン・グエン・ル(Tah Tuan Nguyen Le)とドン・ヴァン・ホアン(Dong Van Hoang)。
0.74
Table structure recognition in scanned images using a clustering method. クラスタリング法を用いた走査画像における表構造認識 0.86
In ICINIS, 2020. 2020年、シチス。 0.74
[33] Nancy Xin Ru Wang, Douglas Burdick, and Yunyao Li. [33]ナンシー・シン・ルー・ワン、ダグラス・バーディック、ユンヤオ・リー。 0.47
TableLab: An interactive table extraction system with adaptive deep learning. tablelab: 適応型ディープラーニングを備えた対話型テーブル抽出システム。 0.77
arXiv, 2021. [34] Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. 佐藤、2021年。 [34]青龍王、黄王、Pengfei Zhu、Peihua Li、Wangmeng Zuo、Qinghua Hu。 0.33
ECA-Net: Efficient channel attention for deep convolutional neural networks. eca-net:深層畳み込みニューラルネットワークのための効率的なチャネルアテンション。 0.59
In CVPR, 2020. CVPR、2020年。 0.72
[35] Xudong Wang, Zhaowei Cai, Dashan Gao, and Nuno Vasconcelos. [35] クドゥン・ワン、シャオウィ・カイ、ダッシャン・ガオ、ヌノ・ヴァスコンセロス 0.35
Towards universal object detection by domain attention. 領域注目によるユニバーサルオブジェクト検出に向けて 0.76
In CVPR, 2019. CVPR、2019年。 0.65
[36] Yalin Wang, Ihsin T Phillips, and Robert M Haralick. Yalin Wang氏、Ihsin T Phillips氏、Robert M Haralick氏。 0.30
Table structure understanding and its performance evaluation. 表構造理解とその性能評価 0.66
Pattern Recognition, 2004. 2004年、パターン認識。 0.82
[37] Zhonghua Wu, Qingyi Tao, Guosheng Lin, and Jianfei Cai. [37]Zhonghua Wu、Qingyi Tao、Guosheng Lin、Jianfei Cai。 0.64
Exploring bottom-up and top-down cues with attentive learning for webly supervised object detection. Webで教師付きオブジェクト検出のための注意深い学習によるボトムアップとトップダウンのキューの探索。 0.51
In CVPR, 2020. CVPR、2020年。 0.72
[38] Hang Xu, Lewei Yao, Wei Zhang, Xiaodan Liang, and Zhenguo Li. [38]ハン・スー、レウェイ・ヤオ、ウェイ・ジン、シャオダン・リアン、シェングオ・リー 0.41
Auto-FPN: Automatic network architecture adaptation for object detection beyond classification. Auto-FPN: 分類を超えたオブジェクト検出のための自動ネットワークアーキテクチャ適応。 0.75
In ICCV, 2019. ICCV、2019年。 0.67
[39] Wenyuan Xue, Qingyong Li, and Dacheng Tao. [39]ウェンユアン・クエ、清涼、ダッチェン・タオ。 0.37
ReS2TIM: Reconstruct syntactic structures from table images. ReS2TIM: テーブルイメージから構文構造を再構築する。 0.66
In ICDAR, 2019. ICDAR、2019年。 0.66
[40] Zhenrong Zhang, Jianshu Zhang, and Jun Du. 40] zhenrong zhang、jianshu zhang、jun du。 0.50
Split, embed and merge: An accurate table structure recognizer. split、embed、merge: 正確なテーブル構造認識器。 0.72
arXiv preprint arXiv:2107.05214, 2021. arxiv プレプリント arxiv:2107.05214, 2021。 0.41
[41] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, and Nancy Xin Ru Wang. [41]Xinyi Zheng、Douglas Burdick、Lucian Popa、Xu Zhong、Nancy Xin Ru Wang。 0.32
Global table extractor (GTE): A framework for joint table identification and cell structure recognition using visual context. global table extractor (gte): 視覚的コンテキストを用いた共同テーブル識別と細胞構造認識のためのフレームワーク。 0.89
In WACV, 2021. WACV、2021年。 0.64
[42] Xu Zhong, Elaheh ShafieiBavani, and Antonio Jimeno Image-based table recognition: data, model, [42]Xu Zhong, Elaheh ShafieiBavani,Antoni o Jimeno画像に基づくテーブル認識:データ、モデル、 0.78
Yepes. and evaluation. In ECCV, 2020. はーい。 評価も 2020年、ECCV。 0.54
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。