論文の概要: Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement
- arxiv url: http://arxiv.org/abs/2203.04814v1
- Date: Wed, 9 Mar 2022 15:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 21:02:43.560987
- Title: Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement
- Title(参考訳): Text-DIAE: テキスト認識と文書強調のための劣化不変オートエンコーダ
- Authors: Mohamed Ali Souibgui, Sanket Biswas, Andres Mafla, Ali Furkan Biten,
Alicia Forn\'es, Yousri Kessentini, Josep Llad\'os, Lluis Gomez, Dimosthenis
Karatzas
- Abstract要約: Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
- 参考スコア(独自算出の注目度): 8.428866479825736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Text-Degradation Invariant Auto Encoder (Text-DIAE)
aimed to solve two tasks, text recognition (handwritten or scene-text) and
document image enhancement. We define three pretext tasks as learning
objectives to be optimized during pre-training without the usage of labelled
data. Each of the pre-text objectives is specifically tailored for the final
downstream tasks. We conduct several ablation experiments that show the
importance of each degradation for a specific domain. Exhaustive
experimentation shows that our method does not have limitations of previous
state-of-the-art based on contrastive losses while at the same time requiring
essentially fewer data samples to converge. Finally, we demonstrate that our
method surpasses the state-of-the-art significantly in existing supervised and
self-supervised settings in handwritten and scene text recognition and document
image enhancement. Our code and trained models will be made publicly available
at~\url{ http://Upon_Acceptance}.
- Abstract(参考訳): 本研究では,テキスト認識(手書き・シーンテキスト)と文書画像強調の2つの課題を解決するためのテキスト劣化不変オートエンコーダ(Text-DIAE)を提案する。
3つのプリテキストタスクを,ラベル付きデータの使用なしに事前トレーニング中に最適化される学習目標として定義する。
プレテキストの目的のそれぞれは、最後のダウンストリームタスクに特化している。
特定の領域における各劣化の重要性を示すアブレーション実験を行っている。
実験結果から, 従来手法では, 従来手法では比較的損失に基づく限界がなく, 同時に, 収束するデータサンプルが少ないことがわかった。
最後に,本手法は手書き文字認識と文書画像強調において,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに上回ることを示す。
私たちのコードとトレーニングされたモデルは、~\url{ http://Upon_Acceptance}で公開されます。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Progressive Scene Text Erasing with Self-Supervision [7.118419154170154]
シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
論文 参考訳(メタデータ) (2022-07-23T09:05:13Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DUET: Detection Utilizing Enhancement for Text in Scanned or Captured
Documents [1.4866448722906016]
提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。
テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。
提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
論文 参考訳(メタデータ) (2021-06-10T07:08:31Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。