論文の概要: Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2012.14163v2
- Date: Mon, 29 Mar 2021 11:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:03:05.363197
- Title: Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks
- Title(参考訳): 複数の文書データセットの事前学習によるディープニューラルネットワークによるテキスト行検出の改善
- Authors: M\'elodie Boillet, Christopher Kermorvant, Thierry Paquet
- Abstract要約: 本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
- 参考スコア(独自算出の注目度): 2.5352713493505785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a fully convolutional network for the document
layout analysis task. While state-of-the-art methods are using models
pre-trained on natural scene images, our method Doc-UFCN relies on a U-shaped
model trained from scratch for detecting objects from historical documents. We
consider the line segmentation task and more generally the layout analysis
problem as a pixel-wise classification task then our model outputs a
pixel-labeling of the input images. We show that Doc-UFCN outperforms
state-of-the-art methods on various datasets and also demonstrate that the
pre-trained parts on natural scene images are not required to reach good
results. In addition, we show that pre-training on multiple document datasets
can improve the performances. We evaluate the models using various metrics to
have a fair and complete comparison between the methods.
- Abstract(参考訳): 本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
最先端の手法では自然風景画像に事前学習したモデルを用いているが, doc-ufcnでは, 過去の文書から物体を検出するために, スクラッチから訓練したu字型モデルに依存している。
我々は,線分分割タスクと,より一般的にレイアウト解析問題を画素単位の分類タスクと考え,入力画像の画素ラベル出力を行う。
Doc-UFCNは,様々なデータセット上で最先端の手法よりも優れており,自然シーン画像の事前学習部が良好な結果を得るためには必要ではないことを示す。
さらに,複数の文書データセットの事前学習により,性能が向上することを示す。
様々な指標を用いてモデルの評価を行い,各手法の公正かつ完全な比較を行った。
関連論文リスト
- Image Generation and Learning Strategy for Deep Document Forgery
Detection [7.585489507445007]
生成タスクのためのディープニューラルネットワーク(DNN)手法の最近の進歩は、文書偽造の脅威を増幅する可能性がある。
本研究では,FD-VIEDと呼ばれる文書偽画像のトレーニングデータセットを構築し,攻撃の可能性をエミュレートする。
実験では,本手法が検出性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-07T01:40:00Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - Neural Photometry-guided Visual Attribute Transfer [4.630419389180576]
本稿では,同じ又は類似の素材のより大きなサンプルに対して,視覚的特性を伝播する深層学習に基づく手法を提案する。
トレーニングには、複数のイルミネーションと専用データ拡張ポリシーの下で撮影された材料の画像を活用する。
我々のモデルは、教師付き画像から画像への変換フレームワークに依存しており、転送されたドメインに依存しない。
論文 参考訳(メタデータ) (2021-12-05T09:22:28Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Unsupervised Deep Learning for Handwritten Page Segmentation [0.0]
ページ分割のための教師なし深層学習法を提案する。
サイアムスニューラルネットワークは、測定可能な特性を使用してパッチを区別するように訓練される。
実験の結果,提案手法は通常の教師なし手法と同じくらい有効であることがわかった。
論文 参考訳(メタデータ) (2021-01-19T07:13:38Z) - Self-Supervised Representation Learning on Document Images [8.927538538637783]
パッチベースの事前学習は,異なる構造特性とサンプル内セマンティック情報が乏しいため,文書画像上では不十分であることを示す。
そこで本稿では,Tobacco-3482画像分類タスクの性能向上のための2つのコンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-04-18T10:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。