論文の概要: Industrial Scene Text Detection with Refined Feature-attentive Network
- arxiv url: http://arxiv.org/abs/2110.12663v1
- Date: Mon, 25 Oct 2021 06:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 03:47:49.911622
- Title: Industrial Scene Text Detection with Refined Feature-attentive Network
- Title(参考訳): Refined Feature-attentive Network を用いた産業シーンテキストの検出
- Authors: Tongkun Guan, Chaochen Gu, Changsheng Lu, Jingzheng Tu, Qi Feng,
Kaijie Wu, Xinping Guan
- Abstract要約: そこで本稿では,不正確な局所化問題を解決するために,RFN (Feature-attentive Network) を提案する。
102156画像と1948809テキストの様々な文字構造と金属部品を含む2つの産業シーンテキストデータセットを構築した。
- 参考スコア(独自算出の注目度): 20.48850807989818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting the marking characters of industrial metal parts remains
challenging due to low visual contrast, uneven illumination, corroded character
structures, and cluttered background of metal part images. Affected by these
factors, bounding boxes generated by most existing methods locate low-contrast
text areas inaccurately. In this paper, we propose a refined feature-attentive
network (RFN) to solve the inaccurate localization problem. Specifically, we
design a parallel feature integration mechanism to construct an adaptive
feature representation from multi-resolution features, which enhances the
perception of multi-scale texts at each scale-specific level to generate a
high-quality attention map. Then, an attentive refinement network is developed
by the attention map to rectify the location deviation of candidate boxes. In
addition, a re-scoring mechanism is designed to select text boxes with the best
rectified location. Moreover, we construct two industrial scene text datasets,
including a total of 102156 images and 1948809 text instances with various
character structures and metal parts. Extensive experiments on our dataset and
four public datasets demonstrate that our proposed method achieves the
state-of-the-art performance.
- Abstract(参考訳): 産業用金属部品のマーキング文字の検出は、低視コントラスト、不均一照明、腐食文字構造、金属部品画像のぼやけた背景など、依然として困難である。
これらの要因によって、既存の方法によって生成されたバウンディングボックスは、低コントラストテキスト領域を不正確に見つける。
本稿では,不正確な局所化問題を解決するために,RFN(Feature-attentive Network)を提案する。
具体的には,マルチ解像度特徴から適応的な特徴表現を構築するための並列特徴統合機構を設計し,各スケールのテキストの知覚を高め,高品質な注目マップを生成する。
そして、注意マップにより注意細分化ネットワークを開発し、候補ボックスの位置ずれを補正する。
さらに、最適な整定位置のテキストボックスを選択するための再スコーリング機構も設計されている。
さらに,102156画像と1948809テキストインスタンスを含む2つの産業シーンテキストデータセットを構築し,様々な文字構造と金属部品について検討した。
我々のデータセットと4つの公開データセットに関する大規模な実験により、提案手法が最先端の性能を達成することを示す。
関連論文リスト
- Artistic-style text detector and a new Movie-Poster dataset [1.6624384368855527]
本稿では,Criss-Cross Attentionと高密度ブロックを用いて,芸術的テクスト検出の不完全かつ誤診断に対処する手法を提案する。
提案手法はMovie-Posterデータセットに優れ,複数のベンチマークデータセットに対して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-06-24T04:10:28Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - SPIN: Structure-Preserving Inner Offset Network for Scene Text
Recognition [48.676064155070556]
任意テキストの出現は、シーンテキスト認識タスクにおいて大きな課題となる。
我々は新しい学習可能な幾何学的非関連モジュールであるStructure-Preserving Inner Offset Network (SPIN)を導入する。
SPINは、ネットワーク内のソースデータの色操作を可能にする。
論文 参考訳(メタデータ) (2020-05-27T01:47:07Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。