論文の概要: DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2208.09878v1
- Date: Sun, 21 Aug 2022 12:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:22:13.555177
- Title: DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection
- Title(参考訳): DPTNet:シーンテキスト検出のためのデュアルパストランスアーキテクチャ
- Authors: Jingyu Lin, Jie Jiang, Yan Yan, Chunchao Guo, Hongfa Wang, Wei Liu,
Hanzi Wang
- Abstract要約: 我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
- 参考スコア(独自算出の注目度): 34.42038300372715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prosperity of deep learning contributes to the rapid progress in scene
text detection. Among all the methods with convolutional networks,
segmentation-based ones have drawn extensive attention due to their superiority
in detecting text instances of arbitrary shapes and extreme aspect ratios.
However, the bottom-up methods are limited to the performance of their
segmentation models. In this paper, we propose DPTNet (Dual-Path Transformer
Network), a simple yet effective architecture to model the global and local
information for the scene text detection task. We further propose a parallel
design that integrates the convolutional network with a powerful self-attention
mechanism to provide complementary clues between the attention path and
convolutional path. Moreover, a bi-directional interaction module across the
two paths is developed to provide complementary clues in the channel and
spatial dimensions. We also upgrade the concentration operation by adding an
extra multi-head attention layer to it. Our DPTNet achieves state-of-the-art
results on the MSRA-TD500 dataset, and provides competitive results on other
standard benchmarks in terms of both detection accuracy and speed.
- Abstract(参考訳): 深層学習の繁栄は、シーンテキストの検出の急速な進歩に寄与する。
畳み込みネットワークを用いた手法では,任意の形状のテキストインスタンスや極端なアスペクト比の検出が優れているため,セグメンテーションベースの手法が注目されている。
しかし,ボトムアップ手法はセグメンテーションモデルの性能に制限されている。
本稿では,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する簡易かつ効果的なアーキテクチャであるdptnet(dual-path transformer network)を提案する。
さらに,コンボリューションネットワークと強力な自己認識機構を統合し,注目経路と畳み込み経路の相補的な手がかりを提供する並列設計を提案する。
さらに,両経路にまたがる双方向相互作用モジュールを開発し,チャネルと空間次元の補足的な手がかりを提供する。
また,追加のマルチヘッドアテンション層を付加することにより,集中操作を改良する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
関連論文リスト
- Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - Dsfer-Net: A Deep Supervision and Feature Retrieval Network for
Bitemporal Change Detection Using Modern Hopfield Networks [12.719327447589345]
本稿では,バイテンポラル変化検出のためのDeep Supervision and feature Retrieval Network (Dsfer-Net)を提案する。
具体的には、バイテンポラル画像の高度に代表的な深い特徴を、完全に畳み込みされたシームズネットワークを通じて、共同で抽出する。
また,特徴検索モジュールを設計し,特徴の差分を抽出し,識別情報を深く教師された方法で活用する。
論文 参考訳(メタデータ) (2023-04-03T16:01:03Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Road detection via a dual-task network based on cross-layer graph fusion
modules [2.8197257696982287]
道路検出のためのデュアルタスクネットワーク(DTnet)と層間グラフ融合モジュール(CGM)を提案する。
CGMは複雑な特徴ストリームグラフによる層間融合効果を改善し、4つのグラフパターンを評価した。
論文 参考訳(メタデータ) (2022-08-17T07:16:55Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Attentional Local Contrast Networks for Infrared Small Target Detection [15.882749652217653]
赤外線小目標検出のための新しいモデル駆動深層ネットワークを提案する。
従来の局所コントラスト測定法を、エンドツーエンドネットワークにおける深さ自在なパラメータレス非線形特徴精製層としてモジュール化します。
ネットワークアーキテクチャの各コンポーネントの有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。
論文 参考訳(メタデータ) (2020-12-15T19:33:09Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。