論文の概要: Rethinking Image-based Table Recognition Using Weakly Supervised Methods
- arxiv url: http://arxiv.org/abs/2303.07641v1
- Date: Tue, 14 Mar 2023 06:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:15:25.724675
- Title: Rethinking Image-based Table Recognition Using Weakly Supervised Methods
- Title(参考訳): 弱教師付き手法による画像に基づくテーブル認識の再考
- Authors: Nam Tuan Ly, Atsuhiro Takasu, Phuc Nguyen, and Hideaki Takeda
- Abstract要約: 本稿では,WSTabNet というテーブル認識のための弱教師付きモデルを提案する。
深層学習によるテーブル認識を容易にするため、ウィキペディアから構築された最大規模の表画像ベースデータセットであるWikiTableSetを作成した。
- 参考スコア(独自算出の注目度): 3.9993134366218857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the previous methods for table recognition rely on training datasets
containing many richly annotated table images. Detailed table image annotation,
e.g., cell or text bounding box annotation, however, is costly and often
subjective. In this paper, we propose a weakly supervised model named WSTabNet
for table recognition that relies only on HTML (or LaTeX) code-level
annotations of table images. The proposed model consists of three main parts:
an encoder for feature extraction, a structure decoder for generating table
structure, and a cell decoder for predicting the content of each cell in the
table. Our system is trained end-to-end by stochastic gradient descent
algorithms, requiring only table images and their ground-truth HTML (or LaTeX)
representations. To facilitate table recognition with deep learning, we create
and release WikiTableSet, the largest publicly available image-based table
recognition dataset built from Wikipedia. WikiTableSet contains nearly 4
million English table images, 590K Japanese table images, and 640k French table
images with corresponding HTML representation and cell bounding boxes. The
extensive experiments on WikiTableSet and two large-scale datasets: FinTabNet
and PubTabNet demonstrate that the proposed weakly supervised model achieves
better, or similar accuracies compared to the state-of-the-art models on all
benchmark datasets.
- Abstract(参考訳): 従来のテーブル認識手法のほとんどは、リッチな注釈付きテーブルイメージを含むトレーニングデータセットに依存していた。
しかし、セルやテキスト境界ボックスアノテーションのような詳細なテーブルイメージアノテーションはコストがかかり、しばしば主観的である。
本稿では,HTML(あるいはLaTeX)のコードレベルアノテーションのみに依存するテーブル認識のための,WSTabNetという弱教師付きモデルを提案する。
提案モデルは,特徴抽出のためのエンコーダ,テーブル構造を生成する構造デコーダ,テーブル内の各セルの内容を予測するセルデコーダの3つの主要部分からなる。
我々のシステムは確率勾配勾配アルゴリズムによってエンドツーエンドに訓練されており、テーブル画像とその基底構造HTML(LaTeX)表現のみを必要とする。
ディープラーニングによるテーブル認識を容易にするため,ウィキペディアから構築された最大規模の画像ベーステーブル認識データセットであるWikiTableSetを作成した。
WikiTableSetには400万近い英語のテーブルイメージ、590万の日本語のテーブルイメージ、640万のフランス語のテーブルイメージと対応するHTML表現とセル境界ボックスが含まれている。
wikitablesetと2つの大規模データセットに関する広範な実験: fintabnetとpubtabnetは、提案されている弱い教師付きモデルが、すべてのベンチマークデータセットの最先端モデルよりも優れた、あるいは類似した精度を達成することを実証している。
関連論文リスト
- A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - GitTables: A Large-Scale Corpus of Relational Tables [3.1218214157681277]
GitHubから抽出された100万のリレーショナルテーブルのコーパスであるGitTablesを紹介します。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
我々はGitTablesの3つのアプリケーションを紹介し、学習したセマンティック型検出モデル、補完方法、テーブル-ツー-KGマッチング、データ検索、準備のためのベンチマークについてその価値を示す。
論文 参考訳(メタデータ) (2021-06-14T09:22:09Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文 参考訳(メタデータ) (2021-05-12T05:13:38Z) - Web Table Classification based on Visual Features [1.52292571922932]
テーブルの視覚的な外観を最大限に活用し,web テーブル分類のアプローチを提案する。
ResNet50の微調整によるCNN画像分類の評価は、このアプローチが以前のソリューションに匹敵する結果を達成することを示しています。
論文 参考訳(メタデータ) (2021-02-25T07:39:19Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。