Fugu-MT 論文翻訳(概要): DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents

論文の概要: DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents

arxiv url: http://arxiv.org/abs/2106.05542v1
Date: Thu, 10 Jun 2021 07:08:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-11 14:43:54.923499
Title: DUET: Detection Utilizing Enhancement for Text in Scanned or Captured Documents
Title（参考訳）: DUET:スキャンまたはキャプチャド文書中のテキストの強調を利用した検出
Authors: Eun-Soo Jung, HyeongGwan Son, Kyusam Oh, Yongkeun Yun, Soonhwan Kwon, Min Soo Kim
Abstract要約: 提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
参考スコア（独自算出の注目度）: 1.4866448722906016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel deep neural model for text detection in document images. For robust text detection in noisy scanned documents, the advantages of multi-task learning are adopted by adding an auxiliary task of text enhancement. Namely, our proposed model is designed to perform noise reduction and text region enhancement as well as text detection. Moreover, we enrich the training data for the model with synthesized document images that are fully labeled for text detection and enhancement, thus overcome the insufficiency of labeled document image data. For the effective exploitation of the synthetic and real data, the training process is separated in two phases. The first phase is training only synthetic data in a fully-supervised manner. Then real data with only detection labels are added in the second phase. The enhancement task for the real data is weakly-supervised with information from their detection labels. Our methods are demonstrated in a real document dataset with performances exceeding those of other text detection methods. Moreover, ablations are conducted and the results confirm the effectiveness of the synthetic data, auxiliary task, and weak-supervision. Whereas the existing text detection studies mostly focus on the text in scenes, our proposed method is optimized to the applications for the text in scanned documents.
Abstract（参考訳）: 文書画像におけるテキスト検出のための新しいディープニューラルネットワークを提案する。ノイズの多いスキャン文書におけるロバストテキスト検出には、テキスト強調の補助タスクを追加することでマルチタスク学習の利点を活用できる。すなわち,提案モデルでは,雑音低減とテキスト領域拡張とテキスト検出を行うように設計されている。さらに,テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させ,ラベル付き文書画像データの不十分さを克服する。合成データと実データを効果的に利用するために、トレーニングプロセスは2つのフェーズに分けられる。第1フェーズは、完全に監督された方法で合成データのみをトレーニングする。そして、第2フェーズに検出ラベルのみを持つ実データを追加する。実データに対する強化タスクは、その検出ラベルからの情報を弱く管理する。提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。さらに, アブレーションを行い, 結果から, 合成データ, 補助タスク, 弱スーパービジョンの有効性が確認された。既存のテキスト検出研究は主にシーンのテキストに焦点を当てているが,本手法はスキャンした文書のテキストに最適化されている。

関連論文リスト

Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%～20.2%向上させる。提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文参考訳（メタデータ） (2022-07-01T03:50:26Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-09T15:44:36Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文参考訳（メタデータ） (2021-04-23T09:29:41Z)
Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-19T11:05:13Z)
TRIE: End-to-End Text Reading and Information Extraction for Document Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-05-27T01:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。