論文の概要: EdgeSpotter: Multi-Scale Dense Text Spotting for Industrial Panel Monitoring
- arxiv url: http://arxiv.org/abs/2506.07112v1
- Date: Sun, 08 Jun 2025 12:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.676405
- Title: EdgeSpotter: Multi-Scale Dense Text Spotting for Industrial Panel Monitoring
- Title(参考訳): EdgeSpotter:産業用パネルモニタリングのためのマルチスケール高密度テキストスポッティング
- Authors: Changhong Fu, Hua Lin, Haobo Zuo, Liangliang Yao, Liguo Zhang,
- Abstract要約: 本研究は、エッジAIベースのビジョンシステム(EdgeSpotter)のための、高精度で堅牢な産業パネル監視を実現するための、新しいマルチスケール高密度テキストスポッターを提案する。
具体的には、マルチレベル特徴間の相互依存性を学習するために、効率的なミキサーを備えた新しいトランスフォーマーを開発した。
さらに, テキストの形状, 位置, 意味情報を明示的にエンコードするキャットモール・ロム・スプラインを用いた新しい特徴サンプリングを設計した。
- 参考スコア(独自算出の注目度): 7.258517513309888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text spotting for industrial panels is a key task for intelligent monitoring. However, achieving efficient and accurate text spotting for complex industrial panels remains challenging due to issues such as cross-scale localization and ambiguous boundaries in dense text regions. Moreover, most existing methods primarily focus on representing a single text shape, neglecting a comprehensive exploration of multi-scale feature information across different texts. To address these issues, this work proposes a novel multi-scale dense text spotter for edge AI-based vision system (EdgeSpotter) to achieve accurate and robust industrial panel monitoring. Specifically, a novel Transformer with efficient mixer is developed to learn the interdependencies among multi-level features, integrating multi-layer spatial and semantic cues. In addition, a new feature sampling with catmull-rom splines is designed, which explicitly encodes the shape, position, and semantic information of text, thereby alleviating missed detections and reducing recognition errors caused by multi-scale or dense text regions. Furthermore, a new benchmark dataset for industrial panel monitoring (IPM) is constructed. Extensive qualitative and quantitative evaluations on this challenging benchmark dataset validate the superior performance of the proposed method in different challenging panel monitoring tasks. Finally, practical tests based on the self-designed edge AI-based vision system demonstrate the practicality of the method. The code and demo will be available at https://github.com/vision4robotics/EdgeSpotter.
- Abstract(参考訳): 産業用パネルのテキストスポッティングはインテリジェントモニタリングの鍵となるタスクである。
しかし, 高密度テキスト領域におけるクロススケールな局所化や曖昧な境界といった問題により, 複雑な産業用パネルの効率的かつ正確なテキストスポッティングを実現することは依然として困難である。
さらに、既存のほとんどの手法は、主に1つのテキストの形を表現することに重点を置いており、異なるテキストをまたいだマルチスケールの特徴情報の包括的探索を無視している。
これらの問題に対処するために、エッジAIベースのビジョンシステム(EdgeSpotter)のための新しいマルチスケール高密度テキストスポッターを提案し、正確で堅牢な産業パネル監視を実現する。
具体的には,マルチレベル特徴間の相互依存性を学習し,多層空間および意味的手がかりを統合するために,効率的なミキサーを用いたトランスフォーマーを開発した。
さらに, テキストの形状, 位置, 意味情報を明示的にエンコードし, 欠落検出を緩和し, マルチスケールないし高密度テキスト領域による認識誤差を低減するキャットモール・ロム・スプラインを用いた新しい特徴サンプリングを設計した。
さらに、産業パネル監視(IPM)のための新しいベンチマークデータセットを構築した。
この挑戦的ベンチマークデータセットの大規模定性的および定量的評価は、異なる挑戦的パネル監視タスクにおいて提案手法の優れた性能を検証した。
最後に、自己設計のエッジAIに基づく視覚システムに基づく実践的テストにより、本手法の実用性を示す。
コードとデモはhttps://github.com/vision4robotics/EdgeSpotter.comで公開される。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Industrial Scene Text Detection with Refined Feature-attentive Network [20.48850807989818]
そこで本稿では,不正確な局所化問題を解決するために,RFN (Feature-attentive Network) を提案する。
102156画像と1948809テキストの様々な文字構造と金属部品を含む2つの産業シーンテキストデータセットを構築した。
論文 参考訳(メタデータ) (2021-10-25T06:23:44Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。