論文の概要: Seeing Text in the Dark: Algorithm and Benchmark
- arxiv url: http://arxiv.org/abs/2404.08965v3
- Date: Wed, 24 Apr 2024 00:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:05:24.568340
- Title: Seeing Text in the Dark: Algorithm and Benchmark
- Title(参考訳): 暗黒でテキストを見る:アルゴリズムとベンチマーク
- Authors: Chengpei Xu, Hao Fu, Long Ma, Wenjing Jia, Chengqi Zhang, Feng Xia, Xiaoyu Ai, Binghao Li, Wenjie Zhang,
- Abstract要約: そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
- 参考スコア(独自算出の注目度): 28.865779563872977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing text in low-light environments is challenging due to visual degradations. Although a straightforward solution involves a two-stage pipeline with low-light image enhancement (LLE) as the initial step followed by detector, LLE is primarily designed for human vision instead of machine and can accumulate errors. In this work, we propose an efficient and effective single-stage approach for localizing text in dark that circumvents the need for LLE. We introduce a constrained learning module as an auxiliary mechanism during the training stage of the text detector. This module is designed to guide the text detector in preserving textual spatial features amidst feature map resizing, thus minimizing the loss of spatial information in texts under low-light visual degradations. Specifically, we incorporate spatial reconstruction and spatial semantic constraints within this module to ensure the text detector acquires essential positional and contextual range knowledge. Our approach enhances the original text detector's ability to identify text's local topological features using a dynamic snake feature pyramid network and adopts a bottom-up contour shaping strategy with a novel rectangular accumulation technique for accurate delineation of streamlined text features. In addition, we present a comprehensive low-light dataset for arbitrary-shaped text, encompassing diverse scenes and languages. Notably, our method achieves state-of-the-art results on this low-light dataset and exhibits comparable performance on standard normal light datasets. The code and dataset will be released.
- Abstract(参考訳): 低照度環境におけるテキストのローカライズは、視覚的劣化のため難しい。
簡単な解法は低照度画像強調(LLE)を最初のステップとして検出する2段階のパイプラインを含むが、LLEは主に機械ではなく人間の視覚用に設計されており、エラーを蓄積することができる。
そこで本研究では,LLEの必要性を回避するために,暗黒テキストのローカライズのための効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
このモジュールは、特徴マップリサイズ中のテキスト空間的特徴を保存するためのテキスト検出器のガイドとして設計されており、低照度の視覚的劣化下でのテキスト中の空間情報の損失を最小限に抑える。
具体的には、本モジュール内に空間的再構成と空間的意味制約を組み込んで、テキスト検出器が本質的な位置的・文脈的範囲の知識を取得することを保証する。
提案手法は,テキストの局所的トポロジ的特徴を動的ヘビ特徴ピラミッドネットワークを用いて同定し,新しい長方形累積法によるボトムアップ輪郭形成戦略を採用して,テキストの特徴を正確に記述する手法である。
さらに,様々な場面や言語を含む任意の字形テキストを対象とした包括的低照度データセットを提案する。
特に,本手法は,この低照度データセットの最先端結果を達成し,標準の標準照度データセットに匹敵する性能を示す。
コードとデータセットがリリースされる。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Artistic-style text detector and a new Movie-Poster dataset [1.6624384368855527]
本稿では,Criss-Cross Attentionと高密度ブロックを用いて,芸術的テクスト検出の不完全かつ誤診断に対処する手法を提案する。
提案手法はMovie-Posterデータセットに優れ,複数のベンチマークデータセットに対して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-06-24T04:10:28Z) - Text in the Dark: Extremely Low-Light Text Image Enhancement [20.631833980353704]
低照度テキスト画像は自然の場面で一般的であり、シーンテキストの検出と認識が困難である。
強調中のシーンテキスト領域に注目するエッジ対応アテンションモジュールを備えた新しいエンコーダデコーダフレームワークを提案する。
提案手法は,新しいテキスト検出とエッジ再構成の損失を利用して,低レベルなシーンテキストの特徴を強調し,テキスト抽出に成功した。
論文 参考訳(メタデータ) (2024-04-22T12:39:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。