論文の概要: LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network
- arxiv url: http://arxiv.org/abs/2306.15142v5
- Date: Wed, 24 Jan 2024 02:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:39:43.429556
- Title: LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network
- Title(参考訳): lranet:低ランク近似ネットワークを用いた高精度かつ効率的なシーンテキスト検出
- Authors: Yuchen Su, Zhineng Chen, Zhiwen Shao, Yuning Du, Zhilong Ji, Jinfeng
Bai, Yong Zhou, Yu-Gang Jiang
- Abstract要約: 低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
- 参考スコア(独自算出の注目度): 63.554061288184165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, regression-based methods, which predict parameterized text shapes
for text localization, have gained popularity in scene text detection. However,
the existing parameterized text shape methods still have limitations in
modeling arbitrary-shaped texts due to ignoring the utilization of
text-specific shape information. Moreover, the time consumption of the entire
pipeline has been largely overlooked, leading to a suboptimal overall inference
speed. To address these issues, we first propose a novel parameterized text
shape method based on low-rank approximation. Unlike other shape representation
methods that employ data-irrelevant parameterization, our approach utilizes
singular value decomposition and reconstructs the text shape using a few
eigenvectors learned from labeled text contours. By exploring the shape
correlation among different text contours, our method achieves consistency,
compactness, simplicity, and robustness in shape representation. Next, we
propose a dual assignment scheme for speed acceleration. It adopts a sparse
assignment branch to accelerate the inference speed, and meanwhile, provides
ample supervised signals for training through a dense assignment branch.
Building upon these designs, we implement an accurate and efficient
arbitrary-shaped text detector named LRANet. Extensive experiments are
conducted on several challenging benchmarks, demonstrating the superior
accuracy and efficiency of LRANet compared to state-of-the-art methods. Code is
available at: \url{https://github.com/ychensu/LRANet.git}
- Abstract(参考訳): 近年,テキストローカライズのためのパラメータ化テキスト形状を予測する回帰法が,シーンテキスト検出において人気を博している。
しかし、既存のパラメータ化テキスト形状法は、テキスト固有の形状情報の利用を無視するため、任意の形状のテキストのモデリングに制限がある。
さらに、パイプライン全体の時間消費がほとんど見過ごされ、全体的な予測速度が最適を下回っている。
この問題に対処するために,まず,低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
データ無関係なパラメータ化を用いる他の形状表現法とは異なり、本手法では特異値分解を用いてラベル付きテキスト輪郭から学習した数個の固有ベクトルを用いてテキスト形状を再構成する。
異なるテキスト輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
次に,速度加速のための2重割当て方式を提案する。
推論速度を加速するためにスパース割り当てブランチを採用し、一方、密度の高い割り当てブランチを介してトレーニングするための十分な教師付き信号を提供する。
これらの設計に基づいて、LRANetと呼ばれる正確で効率的な任意の形状のテキスト検出器を実装した。
大規模な実験はいくつかの挑戦的なベンチマークで行われ、最先端の手法と比較してLRANetの精度と効率が優れていることを示した。
コードは: \url{https://github.com/ychensu/LRANet.git}で入手できる。
関連論文リスト
- Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network [108.07304516679103]
本稿では,シーンテキストの検出と認識のための適応ベジエ・サーブネットワーク(ABCNet)を提案する。
まず,パラメータ化ベジエ曲線を用いて任意の形状のテキストに適応的に適合する。
標準的なバウンディングボックス検出と比較して、ベジエ曲線検出は無視可能なオーバーヘッドを導入し、効率と精度の両方において本手法の優位性をもたらす。
論文 参考訳(メタデータ) (2020-02-24T12:27:31Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。