論文の概要: Efficient Scene Text Detection with Textual Attention Tower
- arxiv url: http://arxiv.org/abs/2002.03741v1
- Date: Thu, 30 Jan 2020 09:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:21:31.044184
- Title: Efficient Scene Text Detection with Textual Attention Tower
- Title(参考訳): テキストアテンションタワーを用いた効率的なシーンテキスト検出
- Authors: Liang Zhang, Yufei Liu, Hang Xiao, Lu Yang, Guangming Zhu, Syed Afaq
Shah, Mohammed Bennamoun, and Peiyi Shen
- Abstract要約: シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。
偽陽性検出を抑制するための自己注意機構が採用されている。
- 参考スコア(独自算出の注目度): 31.08709218937391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection has received attention for years and achieved an
impressive performance across various benchmarks. In this work, we propose an
efficient and accurate approach to detect multioriented text in scene images.
The proposed feature fusion mechanism allows us to use a shallower network to
reduce the computational complexity. A self-attention mechanism is adopted to
suppress false positive detections. Experiments on public benchmarks including
ICDAR 2013, ICDAR 2015 and MSRA-TD500 show that our proposed approach can
achieve better or comparable performances with fewer parameters and less
computational cost.
- Abstract(参考訳): シーンテキスト検出は長年にわたって注目され、様々なベンチマークで印象的なパフォーマンスを達成した。
本研究では,シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。
提案する機能融合機構により,より浅いネットワークを用いて計算複雑性を低減できる。
偽陽性検出を抑制するための自己注意機構が採用されている。
icdar 2013, icdar 2015, msra-td500などの公開ベンチマーク実験では, 提案手法がより少ないパラメータと少ない計算コストで, より良く, 同等の性能を達成できることが示されている。
関連論文リスト
- Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Impact of Automatic Image Classification and Blind Deconvolution in
Improving Text Detection Performance of the CRAFT Algorithm [0.0]
本研究では,CRAFTのテキスト検出性能を高めるために,画像前処理における自動画像分類とブラインドデコンボリューションの影響について検討した。
提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーンイメージをぼかしと非青色の2つのカテゴリに自動的に分類する。
論文 参考訳(メタデータ) (2022-11-29T07:49:22Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Illumination and Temperature-Aware Multispectral Networks for
Edge-Computing-Enabled Pedestrian Detection [10.454696553567809]
本研究は,高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。
提案アルゴリズムは、車載カメラで収集した公開データセットを用いて、選択した最先端アルゴリズムと比較して評価する。
提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。
論文 参考訳(メタデータ) (2021-12-09T17:27:23Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。