論文の概要: PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table
Image Recognition to Latex
- arxiv url: http://arxiv.org/abs/2105.01846v1
- Date: Wed, 5 May 2021 03:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:59:13.532517
- Title: PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table
Image Recognition to Latex
- Title(参考訳): PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex
- Authors: Yelin He and Xianbiao Qi and Jiaquan Ye and Peng Gao and Yihao Chen
and Bingcong Li and Xin Tang and Rong Xiao
- Abstract要約: ICDAR 2021 コンペティションにはテーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。
最初にシーンテキスト認識のために提案されたアルゴリズムMASTER citelu 2019masterを活用します。
TSRタスクでは0.7444 Exact Matchと0.8765 Exact Match @95%を達成し、TCRタスクでは0.5586 Exact Matchと0.7386 Exact Match 95%を得る。
- 参考スコア(独自算出の注目度): 16.003357804292513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our solution for the ICDAR 2021 Competition on Scientific
Table Image Recognition to LaTeX. This competition has two sub-tasks: Table
Structure Reconstruction (TSR) and Table Content Reconstruction (TCR). We treat
both sub-tasks as two individual image-to-sequence recognition problems. We
leverage our previously proposed algorithm MASTER \cite{lu2019master}, which is
originally proposed for scene text recognition. We optimize the MASTER model
from several perspectives: network structure, optimizer, normalization method,
pre-trained model, resolution of input image, data augmentation, and model
ensemble. Our method achieves 0.7444 Exact Match and 0.8765 Exact Match @95\%
on the TSR task, and obtains 0.5586 Exact Match and 0.7386 Exact Match 95\% on
the TCR task.
- Abstract(参考訳): 本稿では,ICDAR 2021コンペティション・オン・サイエント・テーブル画像認識のためのソリューションをLaTeXに提示する。
テーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。
両サブタスクを2つの個別画像対シーケンス認識問題として扱う。
これまで提案してきたアルゴリズムマスタである \cite{lu2019master} をシーンテキスト認識に活用した。
ネットワーク構造,オプティマイザ,正規化法,事前学習モデル,入力画像の解像度,データ拡張,モデルアンサンブルなど,様々な観点からMASTERモデルを最適化する。
提案手法は,TSRタスクで0.7444 Exact Matchと0.8765 Exact Match @95\%を達成し,TRタスクで0.5586 Exact Matchと0.7386 Exact Match 95\%を得る。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Automatic Creative Selection with Cross-Modal Matching [0.4215938932388723]
本稿では,事前学習したLXMERTモデルに基づいて,検索語にAppイメージをマッチングする手法を提案する。
提案手法は,あるアプリケーションに対する広告主関連(画像,検索語)ペアと,(画像,検索語)ペア間の関連性に関する人間評価の2つを用いて評価する。
論文 参考訳(メタデータ) (2024-02-28T22:05:38Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX [1.149654395906819]
本稿では,ICDAR 2021コンペティションのデータセット,課題,参加者の方法,結果について論じる。
本稿では,画像から構造コードを再構成し,画像からコンテンツコードを再構成する2つのサブタスクを提案する。
本報告では、データセットと基礎的真理仕様、使用したパフォーマンス評価指標の詳細、最終結果の提示、参加メソッドの要約について述べる。
論文 参考訳(メタデータ) (2021-05-30T04:17:55Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。