論文の概要: Zoom Text Detector
- arxiv url: http://arxiv.org/abs/2209.03014v1
- Date: Wed, 7 Sep 2022 09:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:36:59.833559
- Title: Zoom Text Detector
- Title(参考訳): ズームテキスト検出器
- Authors: Chuang. Yang, Mulin. Chen, Yuan. Yuan, and Qi. Wang
- Abstract要約: テキスト検出器は、縮小マスクに基づく表現戦略を採用する。
残念ながら、3つの欠点は信頼性の低い縮小マスクを引き起こす。
カメラのズーム処理にインスパイアされたZoom Text Detectorを提案する。
- 参考スコア(独自算出の注目度): 26.761735112547953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To pursue comprehensive performance, recent text detectors improve detection
speed at the expense of accuracy. They adopt shrink-mask based text
representation strategies, which leads to a high dependency of detection
accuracy on shrink-masks. Unfortunately, three disadvantages cause unreliable
shrink-masks. Specifically, these methods try to strengthen the discrimination
of shrink-masks from the background by semantic information. However, the
feature defocusing phenomenon that coarse layers are optimized by fine-grained
objectives limits the extraction of semantic features. Meanwhile, since both
shrink-masks and the margins belong to texts, the detail loss phenomenon that
the margins are ignored hinders the distinguishment of shrink-masks from the
margins, which causes ambiguous shrink-mask edges. Moreover, false-positive
samples enjoy similar visual features with shrink-masks. They aggravate the
decline of shrink-masks recognition. To avoid the above problems, we propose a
Zoom Text Detector (ZTD) inspired by the zoom process of the camera.
Specifically, Zoom Out Module (ZOM) is introduced to provide coarse-grained
optimization objectives for coarse layers to avoid feature defocusing.
Meanwhile, Zoom In Module (ZIM) is presented to enhance the margins recognition
to prevent detail loss. Furthermore, Sequential-Visual Discriminator (SVD) is
designed to suppress false-positive samples by sequential and visual features.
Experiments verify the superior comprehensive performance of ZTD.
- Abstract(参考訳): 総合的な性能を追求するため、最近のテキスト検出器は精度を犠牲にして検出速度を向上させる。
彼らは、縮小マスクに基づくテキスト表現戦略を採用し、縮小マスクに対する検出精度の高い依存性をもたらす。
残念ながら、3つの欠点は信頼性の低い縮小マスクを引き起こす。
特に、これらの手法は、意味情報による背景からの縮小マスクの識別を強化する。
しかし,粗い層が微粒な目的によって最適化される特徴排除現象は,意味的特徴の抽出を制限している。
一方、縮小マスクとマージンの両方がテキストに属するため、マージンが無視される詳細損失現象はマージンと縮小マスクの区別を妨げ、曖昧な縮小マスクエッジを引き起こす。
さらに、偽陽性サンプルは縮小マスクと同様の視覚的特徴を享受する。
彼らは縮小マスクの認識の低下を増す。
上記の問題を回避するため,カメラのズームプロセスに触発されたズームテキスト検出器(ztd)を提案する。
具体的には、Zoom Out Module (ZOM) を導入して、粗い層が機能のデフォーカスを避けるための粗い最適化目標を提供する。
一方、Zoom In Module(ZIM)はマージン認識を強化し、詳細な損失を防ぐ。
さらに、逐次的および視覚的特徴によって偽陽性のサンプルを抑えるために、SVD(Sequential-Visual Discriminator)が設計された。
実験はZTDの優れた総合性能を検証する。
関連論文リスト
- Multitask Learning for SAR Ship Detection with Gaussian-Mask Joint Segmentation [20.540873039361102]
本稿では,オブジェクト検出,スペックル抑制,ターゲットセグメンテーションタスクからなるSAR船舶検出のためのマルチタスク学習フレームワークを提案する。
アスペクト比重み付けによる角度分類損失を導入し、角度周期性と物体比に対処して検出精度を向上させる。
スペックル抑制タスクはデュアルフュージョンアテンション機構を使用してノイズを低減し、浅くノイズを生じさせる特徴を融合させ、ロバスト性を高める。
ターゲットセグメンテーションタスクは、回転したガウスマスクを利用して、乱雑な背景から対象領域を抽出するネットワークを支援し、画素レベルの予測により検出効率を向上させる。
論文 参考訳(メタデータ) (2024-11-21T05:10:41Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。