論文の概要: Bridging the Gap Between End-to-End and Two-Step Text Spotting
- arxiv url: http://arxiv.org/abs/2404.04624v1
- Date: Sat, 6 Apr 2024 13:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:19:42.388381
- Title: Bridging the Gap Between End-to-End and Two-Step Text Spotting
- Title(参考訳): エンドツーエンドと2ステップテキストスポッティングのギャップを埋める
- Authors: Mingxin Huang, Hongliang Li, Yuliang Liu, Xiang Bai, Lianwen Jin,
- Abstract要約: ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
- 参考スコア(独自算出の注目度): 88.14552991115207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modularity plays a crucial role in the development and maintenance of complex systems. While end-to-end text spotting efficiently mitigates the issues of error accumulation and sub-optimal performance seen in traditional two-step methodologies, the two-step methods continue to be favored in many competitions and practical settings due to their superior modularity. In this paper, we introduce Bridging Text Spotting, a novel approach that resolves the error accumulation and suboptimal performance issues in two-step methods while retaining modularity. To achieve this, we adopt a well-trained detector and recognizer that are developed and trained independently and then lock their parameters to preserve their already acquired capabilities. Subsequently, we introduce a Bridge that connects the locked detector and recognizer through a zero-initialized neural network. This zero-initialized neural network, initialized with weights set to zeros, ensures seamless integration of the large receptive field features in detection into the locked recognizer. Furthermore, since the fixed detector and recognizer cannot naturally acquire end-to-end optimization features, we adopt the Adapter to facilitate their efficient learning of these features. We demonstrate the effectiveness of the proposed method through extensive experiments: Connecting the latest detector and recognizer through Bridging Text Spotting, we achieved an accuracy of 83.3% on Total-Text, 69.8% on CTW1500, and 89.5% on ICDAR 2015. The code is available at https://github.com/mxin262/Bridging-Text-Spotting.
- Abstract(参考訳): モジュール性は複雑なシステムの開発とメンテナンスにおいて重要な役割を担います。
エンド・ツー・エンドのテキストスポッティングは、従来の2段階の手法で見られるエラーの蓄積や準最適性能の問題を効果的に軽減するが、多くの競合や実用上、モジュール性が優れているため、この2段階の手法は引き続き好まれる。
本稿では,モジュール性を維持しつつ,2段階の手法でエラーの蓄積と最適化性能の問題を解決する新しい手法であるブリジングテキストスポッティングを提案する。
これを実現するために、独立して開発・訓練されたよく訓練された検出器と認識器を採用し、そのパラメータをロックして、既に取得した能力を維持する。
その後、ゼロ初期化ニューラルネットワークを介してロックされた検出器と認識器を接続するブリッジを導入する。
このゼロ初期化ニューラルネットワークは、ゼロに設定された重みで初期化され、ロックされた認識器への検出において、大きな受容野の特徴をシームレスに統合する。
さらに、固定検出器と認識器は自然にエンドツーエンドの最適化機能を取得できないため、これらの特徴の効率的な学習を容易にするためにAdapterを採用する。
最新の検出器と認識器をブリジングテキストスポッティングで接続し、トータルテキストで83.3%、CTW1500で69.8%、ICDAR 2015で89.5%の精度を達成した。
コードはhttps://github.com/mxin262/Bridging-Text-Spotting.comで公開されている。
関連論文リスト
- MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection [36.478530086163744]
本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。
MutDetはオブジェクトの埋め込みを融合し、検出器は最後のエンコーダ層に双方向に機能し、情報インタラクションを強化する。
様々な環境での実験は、新しい最先端の転送性能を示している。
論文 参考訳(メタデータ) (2024-07-13T15:28:15Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection [29.348921424716057]
本稿では、全体的注意モジュール、異種特徴コントラスト記述子、親和性重み付き特徴校正器からなる新規な異種特徴融合ブロックを提案する。
スケール内およびスケール内の両方のスキップ接続をデコーダアーキテクチャに組み込むと同時に、冗長な接続を排除し、精度と計算効率を向上させる。
セマンティック・トランジションと深度不整合領域に別々に焦点をあてる2つの誤認認識損失関数を導入し、モデルトレーニングにおけるより深い監督に寄与する。
論文 参考訳(メタデータ) (2024-02-29T07:20:02Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Automatic Extrinsic Calibration Method for LiDAR and Camera Sensor
Setups [68.8204255655161]
本論文では,LiDAR,単眼,ステレオカメラを含む任意のセンサのパラメータを校正する手法を提案する。
提案手法は、通常、車両のセットアップで見られるように、非常に異なる解像度とポーズのデバイスを扱うことができる。
論文 参考訳(メタデータ) (2021-01-12T12:02:26Z) - Towards End-to-end Car License Plate Location and Recognition in
Unconstrained Scenarios [0.0]
ライセンスプレートの検出と認識を同時に行うための効率的なフレームワークを提案する。
軽量で統一されたディープニューラルネットワークで、エンドツーエンドに最適化され、リアルタイムに動作する。
実験結果から,提案手法は従来の最先端手法よりも高速・高精度で優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-08-25T09:51:33Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Neural Non-Rigid Tracking [26.41847163649205]
我々は、新しい、エンドツーエンドの学習可能、差別化可能な非剛性トラッカーを導入する。
我々は畳み込みニューラルネットワークを用いて、密度の高い通信とその信頼性を予測する。
現状の手法と比較して,提案アルゴリズムは再構築性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-23T18:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。