論文の概要: Adaptive Shrink-Mask for Text Detection
- arxiv url: http://arxiv.org/abs/2111.09560v1
- Date: Thu, 18 Nov 2021 07:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:17:07.086312
- Title: Adaptive Shrink-Mask for Text Detection
- Title(参考訳): テキスト検出のための適応縮小マスク
- Authors: Chuang Yang, Mulin Chen, Yuan Yuan, Qi Wang, Xuelong Li
- Abstract要約: 既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
- 参考スコア(独自算出の注目度): 91.34459257409104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing real-time text detectors reconstruct text contours by shrink-masks
directly, which simplifies the framework and can make the model run fast.
However, the strong dependence on predicted shrink-masks leads to unstable
detection results. Moreover, the discrimination of shrink-masks is a pixelwise
prediction task. Supervising the network by shrink-masks only will lose much
semantic context, which leads to the false detection of shrink-masks. To
address these problems, we construct an efficient text detection network,
Adaptive Shrink-Mask for Text Detection (ASMTD), which improves the accuracy
during training and reduces the complexity of the inference process. At first,
the Adaptive Shrink-Mask (ASM) is proposed to represent texts by shrink-masks
and independent adaptive offsets. It weakens the coupling of texts to
shrink-masks, which improves the robustness of detection results. Then, the
Super-pixel Window (SPW) is designed to supervise the network. It utilizes the
surroundings of each pixel to improve the reliability of predicted shrink-masks
and does not appear during testing. In the end, a lightweight feature merging
branch is constructed to reduce the computational cost. As demonstrated in the
experiments, our method is superior to existing state-of-the-art (SOTA) methods
in both detection accuracy and speed on multiple benchmarks.
- Abstract(参考訳): 既存のリアルタイムテキスト検出器は、テキストの輪郭を縮小マスクで直接再構築し、フレームワークを単純化し、モデルの実行を高速化する。
しかしながら、予測された収縮マスクへの強い依存は不安定な検出結果をもたらす。
さらに,縮小マスクの識別は画素単位の予測課題である。
縮小マスクによるネットワークの監視は、多くの意味的コンテキストを失うため、縮小マスクの誤検出につながる。
これらの問題に対処するため, テキスト検出のための適応スリンクマスク (ASMTD) という効率的なテキスト検出ネットワークを構築し, トレーニング中の精度を向上し, 推論過程の複雑さを低減する。
まず,asm(adaptive shrink-mask)を用いて,縮小マスクと独立適応オフセットを用いてテキストを表現する。
テキストの結合を縮小マスクに弱め、検出結果の堅牢性を向上させる。
次に、スーパーピクセルウィンドウ(SPW)がネットワークを監督するように設計されている。
それぞれのピクセルの周囲を利用して予測される縮小マスクの信頼性を改善し、テスト中に現れない。
最後に,計算コストを削減するために,軽量な機能統合ブランチを構築した。
実験で示されたように,本手法は複数のベンチマークにおける検出精度と速度の両面で既存のSOTA法よりも優れている。
関連論文リスト
- Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes [31.180352896153682]
有効なテキスト表現類似マスク(SM)と特徴補正モジュール(FCM)を含む,効率的なマルチシーンテキスト検出手法を提案する。
SM-Netの状況を検証するため,交通,産業,自然シーンのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-11-05T04:08:59Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Zoom Text Detector [26.761735112547953]
テキスト検出器は、縮小マスクに基づく表現戦略を採用する。
残念ながら、3つの欠点は信頼性の低い縮小マスクを引き起こす。
カメラのズーム処理にインスパイアされたZoom Text Detectorを提案する。
論文 参考訳(メタデータ) (2022-09-07T09:19:21Z) - Real-Time Mask Detection Based on SSD-MobileNetV2 [2.538209532048867]
優れたリアルタイムマスク検出システムにより、関連するスタッフの作業負荷を低減できる。
既存のマスク検出手法は資源集約的であり、速度と精度のバランスが良くない。
本稿では,マスク検出のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-29T01:59:22Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z) - Suppressing Uncertainties for Large-Scale Facial Expression Recognition [81.51495681011404]
本稿では,不確実性を効果的に抑制し,深層ネットワークが不確実な顔画像に過度に収まらないような,シンプルで効率的なセルフキュアネットワーク(SCN)を提案する。
公開ベンチマークの結果、我々のSCNは現在の最先端メソッドよりも、RAF-DBで textbf88.14%、AffectNetで textbf60.23%、FERPlusで textbf89.35% を上回りました。
論文 参考訳(メタデータ) (2020-02-24T17:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。