論文の概要: Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2203.15221v2
- Date: Wed, 30 Mar 2022 08:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 11:41:10.414134
- Title: Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection
- Title(参考訳): シーンテキスト検出のための機能サンプリングとグループ化(動画あり)
- Authors: Jingqun Tang, Wenqing Zhang, Hongye Liu, MingKun Yang, Bo Jiang,
Guanglong Hu, Xiang Bai
- Abstract要約: 本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
- 参考スコア(独自算出の注目度): 47.820683360286786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have achieved promising progresses in
object detection, as they can eliminate the post-processes like NMS and enrich
the deep representations. However, these methods cannot well cope with scene
text due to its extreme variance of scales and aspect ratios. In this paper, we
present a simple yet effective transformer-based architecture for scene text
detection. Different from previous approaches that learn robust deep
representations of scene text in a holistic manner, our method performs scene
text detection based on a few representative features, which avoids the
disturbance by background and reduces the computational cost. Specifically, we
first select a few representative features at all scales that are highly
relevant to foreground text. Then, we adopt a transformer for modeling the
relationship of the sampled features, which effectively divides them into
reasonable groups. As each feature group corresponds to a text instance, its
bounding box can be easily obtained without any post-processing operation.
Using the basic feature pyramid network for feature extraction, our method
consistently achieves state-of-the-art results on several popular datasets for
scene text detection.
- Abstract(参考訳): 近年, トランスフォーマーに基づく手法は, NMSのような後処理を排除し, 深層表現を充実させることができるため, オブジェクト検出の進歩が期待できる。
しかし,これらの手法は,そのスケールとアスペクト比の極端にばらつきがあるため,シーンテキストにうまく対応できない。
本稿では,シーンテキスト検出のための簡易かつ効果的なトランスフォーマーアーキテクチャを提案する。
シーンテキストのロバストな深層表現を包括的に学習する従来のアプローチとは異なり,提案手法では,背景による乱れを回避し,計算コストを低減できる代表的特徴に基づくシーンテキスト検出を行う。
具体的には、まず、フォアグラウンドテキストに非常に関係のあるあらゆるスケールで、いくつかの代表的特徴を選択します。
そして、サンプル特徴の関係をモデル化するために変換器を採用し、効果的にそれらを合理的なグループに分割する。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
特徴抽出のための基本的特徴ピラミッドネットワークを用いて,シーンテキスト検出のためのいくつかの一般的なデータセットの最先端の結果を一貫して達成する。
関連論文リスト
- Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes [31.180352896153682]
有効なテキスト表現類似マスク(SM)と特徴補正モジュール(FCM)を含む,効率的なマルチシーンテキスト検出手法を提案する。
SM-Netの状況を検証するため,交通,産業,自然シーンのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-11-05T04:08:59Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。