論文の概要: Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes
- arxiv url: http://arxiv.org/abs/2411.02794v1
- Date: Tue, 05 Nov 2024 04:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:50.644020
- Title: Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes
- Title(参考訳): 交通・産業・自然場面における類似マスクを用いたリアルタイムテキスト検出
- Authors: Xu Han, Junyu Gao, Chuang Yang, Yuan Yuan, Qi Wang,
- Abstract要約: 有効なテキスト表現類似マスク(SM)と特徴補正モジュール(FCM)を含む,効率的なマルチシーンテキスト検出手法を提案する。
SM-Netの状況を検証するため,交通,産業,自然シーンのデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 31.180352896153682
- License:
- Abstract: Texts on the intelligent transportation scene include mass information. Fully harnessing this information is one of the critical drivers for advancing intelligent transportation. Unlike the general scene, detecting text in transportation has extra demand, such as a fast inference speed, except for high accuracy. Most existing real-time text detection methods are based on the shrink mask, which loses some geometry semantic information and needs complex post-processing. In addition, the previous method usually focuses on correct output, which ignores feature correction and lacks guidance during the intermediate process. To this end, we propose an efficient multi-scene text detector that contains an effective text representation similar mask (SM) and a feature correction module (FCM). Unlike previous methods, the former aims to preserve the geometric information of the instances as much as possible. Its post-progressing saves 50$\%$ of the time, accurately and efficiently reconstructing text contours. The latter encourages false positive features to move away from the positive feature center, optimizing the predictions from the feature level. Some ablation studies demonstrate the efficiency of the SM and the effectiveness of the FCM. Moreover, the deficiency of existing traffic datasets (such as the low-quality annotation or closed source data unavailability) motivated us to collect and annotate a traffic text dataset, which introduces motion blur. In addition, to validate the scene robustness of the SM-Net, we conduct experiments on traffic, industrial, and natural scene datasets. Extensive experiments verify it achieves (SOTA) performance on several benchmarks. The code and dataset are available at: \url{https://github.com/fengmulin/SMNet}.
- Abstract(参考訳): インテリジェントな輸送シーンのテキストには、大量情報が含まれている。
この情報を完全に活用することは、インテリジェントな輸送を推進するための重要な要因の1つだ。
一般的なシーンとは異なり、輸送中のテキストの検出には、高速な推論速度など、高い精度を除いて、余分な需要がある。
既存のリアルタイムテキスト検出手法の多くは、幾何意味情報を失い、複雑な後処理を必要とする縮小マスクに基づいている。
さらに, 従来の手法では, 特徴補正を無視し, 中間プロセスのガイダンスが欠如しているため, 正しい出力に焦点をあてることが多い。
そこで本研究では,有効なテキスト表現類似マスク (SM) と特徴補正モジュール (FCM) を含む,効率的なマルチシーンテキスト検出手法を提案する。
従来の方法とは異なり、前者はインスタンスの幾何学的情報を可能な限り保存することを目的としている。
後処理は50$\%の時間を節約し、テキストの輪郭を正確かつ効率的に再構築する。
後者は偽陽性の特徴を肯定的な特徴中心から遠ざけ、特徴レベルから予測を最適化する。
いくつかのアブレーション研究では、SMの効率とFCMの有効性が示されている。
さらに、既存のトラフィックデータセット(低品質のアノテーションやクローズドソースデータ利用不可能など)の欠如は、トラフィックテキストデータセットの収集と注釈付けを動機付けました。
さらに,SM-Netの環境ロバスト性を検証するため,交通,産業,自然シーンのデータセットについて実験を行った。
大規模な実験により、いくつかのベンチマークでSOTAのパフォーマンスが検証される。
コードとデータセットは: \url{https://github.com/fengmulin/SMNet}.comで公開されている。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。