論文の概要: LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting
- arxiv url: http://arxiv.org/abs/2511.05818v1
- Date: Sat, 08 Nov 2025 03:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.59496
- Title: LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting
- Title(参考訳): LRANet++: 高精度かつ効率的なテキストスポッティングのための低ランク近似ネットワーク
- Authors: Yuchen Su, Zhineng Chen, Yongkun Du, Zuxuan Wu, Hongtao Xie, Yu-Gang Jiang,
- Abstract要約: 高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
- 参考スコア(独自算出の注目度): 118.93173826110815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text spotting aims to jointly optimize text detection and recognition within a unified framework. Despite significant progress, designing an accurate and efficient end-to-end text spotter for arbitrary-shaped text remains largely unsolved. We identify the primary bottleneck as the lack of a reliable and efficient text detection method. To address this, we propose a novel parameterized text shape method based on low-rank approximation for precise detection and a triple assignment detection head to enable fast inference. Specifically, unlike other shape representation methods that employ data-irrelevant parameterization, our data-driven approach derives a low-rank subspace directly from labeled text boundaries. To ensure this process is robust against the inherent annotation noise in this data, we utilize a specialized recovery method based on an $\ell_1$-norm formulation, which accurately reconstructs the text shape with only a few key orthogonal vectors. By exploiting the inherent shape correlation among different text contours, our method achieves consistency and compactness in shape representation. Next, the triple assignment scheme introduces a novel architecture where a deep sparse branch (for stabilized training) is used to guide the learning of an ultra-lightweight sparse branch (for accelerated inference), while a dense branch provides rich parallel supervision. Building upon these advancements, we integrate the enhanced detection module with a lightweight recognition branch to form an end-to-end text spotting framework, termed LRANet++, capable of accurately and efficiently spotting arbitrary-shaped text. Extensive experiments on several challenging benchmarks demonstrate the superiority of LRANet++ compared to state-of-the-art methods. Code will be available at: https://github.com/ychensu/LRANet-PP.git
- Abstract(参考訳): エンドツーエンドのテキストスポッティングは、統一されたフレームワーク内でのテキストの検出と認識を共同で最適化することを目的としている。
大幅な進歩にもかかわらず、任意の形のテキストに対する正確で効率的なエンドツーエンドのテキストスポッターを設計することは、ほとんど未解決のままである。
主要なボトルネックは、信頼性と効率的なテキスト検出方法が欠如していることである。
そこで本研究では,高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法と,高速な推論を可能にする3重代入検出ヘッドを提案する。
具体的には、データ非関連パラメータ化を用いた他の形状表現法とは異なり、データ駆動方式はラベル付きテキスト境界から直接低ランクな部分空間を導出する。
この処理が本データ中の固有アノテーションノイズに対して堅牢であることを保証するために,$\ell_1$-norm の定式化に基づく特殊回復法を用いて,数個のキー直交ベクトルでテキストの形状を正確に再構成する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
次に、三重代入方式は、深度スパース分岐(安定化訓練のための)を用いて超軽量スパース分岐(加速推論のための)の学習を誘導する新しいアーキテクチャを導入し、高密度分岐は豊富な並列監視を提供する。
これらの進歩に基づいて、拡張検出モジュールを軽量な認識ブランチに統合し、任意の形のテキストを正確にかつ効率的に発見できるLRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築します。
いくつかの挑戦的なベンチマークに関する大規模な実験は、最先端の手法と比較してLRANet++の優位性を示している。
コードは、https://github.com/ychensu/LRANet-PP.gitで入手できる。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。