論文の概要: Explicit Relational Reasoning Network for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2412.14692v2
- Date: Wed, 25 Dec 2024 15:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:06.464145
- Title: Explicit Relational Reasoning Network for Scene Text Detection
- Title(参考訳): シーンテキスト検出のための明示的リレーショナル推論ネットワーク
- Authors: Yuchen Su, Zhineng Chen, Yongkun Du, Zhilong Ji, Kai Hu, Jinfeng Bai, Xieping Gao,
- Abstract要約: 後処理なしでコンポーネント関係をエレガントにモデル化するための明示的推論ネットワーク(ERRNet)を導入する。
ERRNetは、高い競争力を持つ推論速度を保持しながら、最先端の精度を一貫して達成する。
- 参考スコア(独自算出の注目度): 20.310201743941196
- License:
- Abstract: Connected component (CC) is a proper text shape representation that aligns with human reading intuition. However, CC-based text detection methods have recently faced a developmental bottleneck that their time-consuming post-processing is difficult to eliminate. To address this issue, we introduce an explicit relational reasoning network (ERRNet) to elegantly model the component relationships without post-processing. Concretely, we first represent each text instance as multiple ordered text components, and then treat these components as objects in sequential movement. In this way, scene text detection can be innovatively viewed as a tracking problem. From this perspective, we design an end-to-end tracking decoder to achieve a CC-based method dispensing with post-processing entirely. Additionally, we observe that there is an inconsistency between classification confidence and localization quality, so we propose a Polygon Monte-Carlo method to quickly and accurately evaluate the localization quality. Based on this, we introduce a position-supervised classification loss to guide the task-aligned learning of ERRNet. Experiments on challenging benchmarks demonstrate the effectiveness of our ERRNet. It consistently achieves state-of-the-art accuracy while holding highly competitive inference speed.
- Abstract(参考訳): Connected component (CC) は、人間の読みの直感に合わせた適切なテキスト形状の表現である。
しかし、CCベースのテキスト検出手法は、最近、時間を要する後処理の除去が困難である発達上のボトルネックに直面している。
この問題に対処するために、後処理なしでコンポーネント関係をエレガントにモデル化するための明示的リレーショナル推論ネットワーク(ERRNet)を導入する。
具体的には、まず各テキストインスタンスを複数の順序付きテキストコンポーネントとして表現し、次にそれらのコンポーネントをシーケンシャルな動作でオブジェクトとして扱う。
このように、シーンテキスト検出は、トラッキング問題として革新的に見なすことができる。
この観点から,ポストプロセッシングを完全に不要とするCCベースの手法を実現するために,エンドツーエンドのトラッキングデコーダを設計する。
さらに,分類信頼度と局所化品質に矛盾があることを観察し,局所化品質を迅速かつ正確に評価するポリゴンモンテカルロ法を提案する。
そこで本研究では,ERRNetのタスク整合学習を支援するために,位置教師付き分類損失を導入する。
挑戦的なベンチマークの実験では、ERRNetの有効性が示されています。
高い競争力を持つ推論速度を維持しながら、最先端の精度を一貫して達成する。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。