論文の概要: Explore Faster Localization Learning For Scene Text Detection
- arxiv url: http://arxiv.org/abs/2207.01342v1
- Date: Mon, 4 Jul 2022 11:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 22:54:50.696136
- Title: Explore Faster Localization Learning For Scene Text Detection
- Title(参考訳): シーンテキスト検出のための高速なローカライゼーション学習
- Authors: Yuzhong Zhao, Yuanqiang Cai, Weijia Wu, Weiqiang Wang
- Abstract要約: 本稿では,高速収束速度と高精度テキストローカライゼーションを備えたシーンテキスト検出ネットワーク(FANet)を提案する。
The proposed FANet is a end-to-end text detector based on transformer feature learning and normalized Fourier descriptor modeling。
大規模な実験により,提案するFANetが,トレーニングのエポックを減らし,事前学習を行わずにSOTA性能を達成できることが実証された。
- 参考スコア(独自算出の注目度): 23.53003121716217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generally pre-training and long-time training computation are necessary for
obtaining a good-performance text detector based on deep networks. In this
paper, we present a new scene text detection network (called FANet) with a Fast
convergence speed and Accurate text localization. The proposed FANet is an
end-to-end text detector based on transformer feature learning and normalized
Fourier descriptor modeling, where the Fourier Descriptor Proposal Network and
Iterative Text Decoding Network are designed to efficiently and accurately
identify text proposals. Additionally, a Dense Matching Strategy and a
well-designed loss function are also proposed for optimizing the network
performance. Extensive experiments are carried out to demonstrate that the
proposed FANet can achieve the SOTA performance with fewer training epochs and
no pre-training. When we introduce additional data for pre-training, the
proposed FANet can achieve SOTA performance on MSRATD500, CTW1500 and
TotalText. The ablation experiments also verify the effectiveness of our
contributions.
- Abstract(参考訳): 深層ネットワークに基づく良質なテキスト検出を実現するためには,事前学習と長期学習の計算が必要となる。
本稿では,高速収束速度と高精度テキストローカライゼーションを備えた新しいシーンテキスト検出ネットワーク(fanet)を提案する。
提案するfanetは、トランスフォーマー特徴学習と正規化フーリエ記述子モデリングに基づくエンドツーエンドテキスト検出器であり、フーリエ記述子提案ネットワークと反復テキスト復号ネットワークは、テキスト提案を効率的かつ正確に識別するために設計されている。
さらに,ネットワーク性能を最適化するために,Dense Matching Strategy と well-designed loss function も提案されている。
大規模な実験により,提案するFANetは,訓練エポックを減らし,事前学習を行わずにSOTA性能を達成できることが実証された。
事前学習のための追加データを導入すると,提案するFANetは,MSRATD500,CTW1500,TotalText上でSOTA性能を実現することができる。
アブレーション実験は,我々の貢献の有効性も検証した。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - A Unified Light Framework for Real-time Fault Detection of Freight Train
Images [16.721758280029302]
貨物列車のリアルタイム故障検出は、鉄道輸送の安全と最適運転を保証する上で重要な役割を担っている。
深層学習に基づくアプローチの有望な結果にもかかわらず、貨物列車画像におけるこれらの断層検出器の性能は精度と効率の両立には程遠い。
本稿では,リソース要求の少ないリアルタイム動作をサポートしながら,検出精度を向上させるための統一光フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-31T05:10:20Z) - Biologically Plausible Learning of Text Representation with Spiking
Neural Networks [0.0]
我々は、文書をスパイクスパイク列車に変換する方法を示し、スパイクニューラルネットワーク(SNN)のトレーニングプロセスにおいて入力として使用される。
トレーニング後、SNNはテキスト/文書分類に適した低次元スパイクベースのテキスト表現を生成するために使用できる。
論文 参考訳(メタデータ) (2020-06-26T10:14:25Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Resolution Adaptive Networks for Efficient Inference [53.04907454606711]
本稿では,低分解能表現が「容易」な入力を分類するのに十分である,という直感に触発された新しいレゾリューション適応ネットワーク(RANet)を提案する。
RANetでは、入力画像はまず、低解像度表現を効率的に抽出する軽量サブネットワークにルーティングされる。
ネットワーク内の高解像度パスは、"ハード"サンプルを認識する能力を維持している。
論文 参考訳(メタデータ) (2020-03-16T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。