論文の概要: Don't Forget Me: Accurate Background Recovery for Text Removal via
Modeling Local-Global Context
- arxiv url: http://arxiv.org/abs/2207.10273v1
- Date: Thu, 21 Jul 2022 02:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:56:39.762761
- Title: Don't Forget Me: Accurate Background Recovery for Text Removal via
Modeling Local-Global Context
- Title(参考訳): 忘れないでください: ローカルグローバルコンテキストのモデリングによるテキスト除去のための正確なバックグラウンドリカバリ
- Authors: Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen,
Fengjun Guo, and Kai Ding
- Abstract要約: 本稿では,CTRNetと呼ばれるコンテキスト誘導型テキスト除去ネットワークを提案する。
CTRNetは、背景復元のプロセスを導くための事前知識として、低レベル構造と高レベル識別コンテキストの両方を探索する。
ベンチマークデータセット、SCUT-EnsText、SCUT-Synの実験は、CTRNetが既存の最先端メソッドよりも大幅に優れていることを示している。
- 参考スコア(独自算出の注目度): 36.405779156685966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text removal has attracted increasingly attention due to its various
applications on privacy protection, document restoration, and text editing. It
has shown significant progress with deep neural network. However, most of the
existing methods often generate inconsistent results for complex background. To
address this issue, we propose a Contextual-guided Text Removal Network, termed
as CTRNet. CTRNet explores both low-level structure and high-level
discriminative context feature as prior knowledge to guide the process of
background restoration. We further propose a Local-global Content Modeling
(LGCM) block with CNNs and Transformer-Encoder to capture local features and
establish the long-term relationship among pixels globally. Finally, we
incorporate LGCM with context guidance for feature modeling and decoding.
Experiments on benchmark datasets, SCUT-EnsText and SCUT-Syn show that CTRNet
significantly outperforms the existing state-of-the-art methods. Furthermore, a
qualitative experiment on examination papers also demonstrates the
generalization ability of our method. The codes and supplement materials are
available at https://github.com/lcy0604/CTRNet.
- Abstract(参考訳): テキスト削除は、プライバシー保護、文書復元、テキスト編集に関する様々な応用により、注目を集めている。
ディープニューラルネットワークでは大きな進歩を遂げている。
しかし、既存のメソッドの多くは複雑なバックグラウンドに対して一貫性のない結果を生成することが多い。
そこで本研究では,CTRNetと呼ばれるコンテキスト誘導テキスト除去ネットワークを提案する。
CTRNetは、背景復元のプロセスを導くための事前知識として、低レベル構造と高レベル識別コンテキストの両方を探索する。
さらに,cnnとtransformer-encoderを用いたローカル・グローバル・コンテンツ・モデリング(lgcm)ブロックを提案する。
最後に,LGCMに特徴モデリングと復号化のためのコンテキストガイダンスを組み込む。
ベンチマークデータセット、SCUT-EnsText、SCUT-Synの実験は、CTRNetが既存の最先端メソッドよりも大幅に優れていることを示している。
さらに,試験論文における定性的な実験により,本手法の一般化能力を示す。
コードはhttps://github.com/lcy0604/CTRNetで入手できる。
関連論文リスト
- Explicit Relational Reasoning Network for Scene Text Detection [20.310201743941196]
後処理なしでコンポーネント関係をエレガントにモデル化するための明示的推論ネットワーク(ERRNet)を導入する。
ERRNetは、高い競争力を持つ推論速度を保持しながら、最先端の精度を一貫して達成する。
論文 参考訳(メタデータ) (2024-12-19T09:51:45Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。