論文の概要: Efficient Scene Text Detection with Textual Attention Tower
- arxiv url: http://arxiv.org/abs/2002.03741v1
- Date: Thu, 30 Jan 2020 09:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:21:31.044184
- Title: Efficient Scene Text Detection with Textual Attention Tower
- Title(参考訳): テキストアテンションタワーを用いた効率的なシーンテキスト検出
- Authors: Liang Zhang, Yufei Liu, Hang Xiao, Lu Yang, Guangming Zhu, Syed Afaq
Shah, Mohammed Bennamoun, and Peiyi Shen
- Abstract要約: シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。
偽陽性検出を抑制するための自己注意機構が採用されている。
- 参考スコア(独自算出の注目度): 31.08709218937391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection has received attention for years and achieved an
impressive performance across various benchmarks. In this work, we propose an
efficient and accurate approach to detect multioriented text in scene images.
The proposed feature fusion mechanism allows us to use a shallower network to
reduce the computational complexity. A self-attention mechanism is adopted to
suppress false positive detections. Experiments on public benchmarks including
ICDAR 2013, ICDAR 2015 and MSRA-TD500 show that our proposed approach can
achieve better or comparable performances with fewer parameters and less
computational cost.
- Abstract(参考訳): シーンテキスト検出は長年にわたって注目され、様々なベンチマークで印象的なパフォーマンスを達成した。
本研究では,シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。
提案する機能融合機構により,より浅いネットワークを用いて計算複雑性を低減できる。
偽陽性検出を抑制するための自己注意機構が採用されている。
icdar 2013, icdar 2015, msra-td500などの公開ベンチマーク実験では, 提案手法がより少ないパラメータと少ない計算コストで, より良く, 同等の性能を達成できることが示されている。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Refined Infrared Small Target Detection Scheme with Single-Point Supervision [2.661766509317245]
単一点監視を用いた革新的赤外線小目標検出手法を提案する。
提案手法は最先端(SOTA)性能を実現する。
特に、提案手法は「ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 1: Weakly Supervised Infrared Small Target Detection」で3位を獲得した。
論文 参考訳(メタデータ) (2024-08-05T18:49:58Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection [21.04812985569116]
TFDet と呼ばれる多スペクトル歩行者検出のための新しい目標認識融合戦略を提案する。
TFDetは、KAISTとLLVIPの2つのマルチスペクトル歩行者ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-26T02:09:48Z) - Impact of Automatic Image Classification and Blind Deconvolution in
Improving Text Detection Performance of the CRAFT Algorithm [0.0]
本研究では,CRAFTのテキスト検出性能を高めるために,画像前処理における自動画像分類とブラインドデコンボリューションの影響について検討した。
提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーンイメージをぼかしと非青色の2つのカテゴリに自動的に分類する。
論文 参考訳(メタデータ) (2022-11-29T07:49:22Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Illumination and Temperature-Aware Multispectral Networks for
Edge-Computing-Enabled Pedestrian Detection [10.454696553567809]
本研究は,高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。
提案アルゴリズムは、車載カメラで収集した公開データセットを用いて、選択した最先端アルゴリズムと比較して評価する。
提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。
論文 参考訳(メタデータ) (2021-12-09T17:27:23Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。