論文の概要: Text-Pass Filter: An Efficient Scene Text Detector
- arxiv url: http://arxiv.org/abs/2601.18098v1
- Date: Mon, 26 Jan 2026 03:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.635687
- Title: Text-Pass Filter: An Efficient Scene Text Detector
- Title(参考訳): Text-Pass Filter:効率的なシーンテキスト検出装置
- Authors: Chuang Yang, Haozhao Ma, Xu Han, Yuan Yuan, Qi Wang,
- Abstract要約: 任意のテキスト検出のためのテキストパスフィルタ(TPF)を設計する。
テキスト全体を直接セグメントし、本質的な制限を避ける。
TPFは複雑な復号化や後処理をすることなく、接着剤のテキストを自然に分離することができる。
- 参考スコア(独自算出の注目度): 13.518443145609204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To pursue an efficient text assembling process, existing methods detect texts via the shrink-mask expansion strategy. However, the shrinking operation loses the visual features of text margins and confuses the foreground and background difference, which brings intrinsic limitations to recognize text features. We follow this issue and design Text-Pass Filter (TPF) for arbitrary-shaped text detection. It segments the whole text directly, which avoids the intrinsic limitations. It is noteworthy that different from previous whole text region-based methods, TPF can separate adhesive texts naturally without complex decoding or post-processing processes, which makes it possible for real-time text detection. Concretely, we find that the band-pass filter allows through components in a specified band of frequencies, called its passband but blocks components with frequencies above or below this band. It provides a natural idea for extracting whole texts separately. By simulating the band-pass filter, TPF constructs a unique feature-filter pair for each text. In the inference stage, every filter extracts the corresponding matched text by passing its pass-feature and blocking other features. Meanwhile, considering the large aspect ratio problem of ribbon-like texts makes it hard to recognize texts wholly, a Reinforcement Ensemble Unit (REU) is designed to enhance the feature consistency of the same text and to enlarge the filter's recognition field to help recognize whole texts. Furthermore, a Foreground Prior Unit (FPU) is introduced to encourage TPF to discriminate the difference between the foreground and background, which improves the feature-filter pair quality. Experiments demonstrate the effectiveness of REU and FPU while showing the TPF's superiority.
- Abstract(参考訳): 効率的なテキスト組み立て工程を追求するため,既存の手法は縮小マスク展開戦略を用いてテキストを検出する。
しかし、縮小操作はテキストマージンの視覚的特徴を失い、前景と背景の違いを混乱させ、本質的なテキスト特徴の認識に制限をもたらす。
この問題に追従し、任意の形のテキスト検出のためのテキストパスフィルタ(TPF)を設計する。
テキスト全体を直接セグメントし、本質的な制限を避ける。
TPFは、従来のテキスト領域ベースの手法とは違って、複雑な復号化や後処理をせずに自然に接着剤のテキストを分離できるので、リアルタイムなテキスト検出が可能になる。
具体的には、帯域通過フィルタは、帯域通過帯域と呼ばれる特定の周波数帯域の成分を通過させるが、帯域の上下の成分をブロックする。
テキスト全体を別々に抽出する自然なアイデアを提供する。
帯域通過フィルタをシミュレートすることで、TPFは各テキストに対してユニークな特徴フィルタペアを構築する。
推論段階では、各フィルタは、そのパス機能を通過し、他の特徴をブロックすることによって、対応するマッチしたテキストを抽出する。
一方、リボンのようなテキストの大きなアスペクト比の問題を考えると、REU(Reinforcement Ensemble Unit)は、同じテキストの特徴的一貫性を高め、フィルタの認識領域を拡大して全テキストの認識を支援するように設計されている。
さらに、前景と背景の違いを識別するようTPFに促すために、前景優先ユニット(FPU)が導入され、特徴フィルタペアの品質が向上する。
TPFの優位性を示しながら、REUとFPUの有効性を示す実験を行った。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition [78.67283660198403]
テキストの不規則性は、シーンテキスト認識者に重大な課題をもたらす。
TPS++は、テキストの修正にアテンションメカニズムを組み込んだ、アテンション強化TPS変換である。
常に認識を改善し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2023-05-09T10:16:43Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。