論文の概要: DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2208.09878v1
- Date: Sun, 21 Aug 2022 12:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:22:13.555177
- Title: DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection
- Title(参考訳): DPTNet:シーンテキスト検出のためのデュアルパストランスアーキテクチャ
- Authors: Jingyu Lin, Jie Jiang, Yan Yan, Chunchao Guo, Hongfa Wang, Wei Liu,
Hanzi Wang
- Abstract要約: 我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
- 参考スコア(独自算出の注目度): 34.42038300372715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prosperity of deep learning contributes to the rapid progress in scene
text detection. Among all the methods with convolutional networks,
segmentation-based ones have drawn extensive attention due to their superiority
in detecting text instances of arbitrary shapes and extreme aspect ratios.
However, the bottom-up methods are limited to the performance of their
segmentation models. In this paper, we propose DPTNet (Dual-Path Transformer
Network), a simple yet effective architecture to model the global and local
information for the scene text detection task. We further propose a parallel
design that integrates the convolutional network with a powerful self-attention
mechanism to provide complementary clues between the attention path and
convolutional path. Moreover, a bi-directional interaction module across the
two paths is developed to provide complementary clues in the channel and
spatial dimensions. We also upgrade the concentration operation by adding an
extra multi-head attention layer to it. Our DPTNet achieves state-of-the-art
results on the MSRA-TD500 dataset, and provides competitive results on other
standard benchmarks in terms of both detection accuracy and speed.
- Abstract(参考訳): 深層学習の繁栄は、シーンテキストの検出の急速な進歩に寄与する。
畳み込みネットワークを用いた手法では,任意の形状のテキストインスタンスや極端なアスペクト比の検出が優れているため,セグメンテーションベースの手法が注目されている。
しかし,ボトムアップ手法はセグメンテーションモデルの性能に制限されている。
本稿では,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する簡易かつ効果的なアーキテクチャであるdptnet(dual-path transformer network)を提案する。
さらに,コンボリューションネットワークと強力な自己認識機構を統合し,注目経路と畳み込み経路の相補的な手がかりを提供する並列設計を提案する。
さらに,両経路にまたがる双方向相互作用モジュールを開発し,チャネルと空間次元の補足的な手がかりを提供する。
また,追加のマルチヘッドアテンション層を付加することにより,集中操作を改良する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
関連論文リスト
- Image Captioning via Dynamic Path Customization [100.15412641586525]
画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。
提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-01T07:23:21Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Road detection via a dual-task network based on cross-layer graph fusion
modules [2.8197257696982287]
道路検出のためのデュアルタスクネットワーク(DTnet)と層間グラフ融合モジュール(CGM)を提案する。
CGMは複雑な特徴ストリームグラフによる層間融合効果を改善し、4つのグラフパターンを評価した。
論文 参考訳(メタデータ) (2022-08-17T07:16:55Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Attentional Local Contrast Networks for Infrared Small Target Detection [15.882749652217653]
赤外線小目標検出のための新しいモデル駆動深層ネットワークを提案する。
従来の局所コントラスト測定法を、エンドツーエンドネットワークにおける深さ自在なパラメータレス非線形特徴精製層としてモジュール化します。
ネットワークアーキテクチャの各コンポーネントの有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。
論文 参考訳(メタデータ) (2020-12-15T19:33:09Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。