論文の概要: I3CL:Intra- and Inter-Instance Collaborative Learning for
Arbitrary-shaped Scene Text Detection
- arxiv url: http://arxiv.org/abs/2108.01343v1
- Date: Tue, 3 Aug 2021 07:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:00:50.632100
- Title: I3CL:Intra- and Inter-Instance Collaborative Learning for
Arbitrary-shaped Scene Text Detection
- Title(参考訳): I3CL:任意型シーンテキスト検出のための事例間協調学習
- Authors: Jian Ye, Jing Zhang, Juhua Liu, Bo Du and Dacheng Tao
- Abstract要約: 事例間協調学習(I3CL)という新しい手法を提案する。
具体的には、最初の問題に対処するため、複数の受容場を持つ効率的な畳み込みモジュールを設計する。
2つ目の問題に対処するため、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールを考案しました。
- 参考スコア(独自算出の注目度): 93.62705504233931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for arbitrary-shaped text detection in natural scenes face
two critical issues, i.e., 1) fracture detections at the gaps in a text
instance; and 2) inaccurate detections of arbitrary-shaped text instances with
diverse background context. To address these issues, we propose a novel method
named Intra- and Inter-Instance Collaborative Learning (I3CL). Specifically, to
address the first issue, we design an effective convolutional module with
multiple receptive fields, which is able to collaboratively learn better
character and gap feature representations at local and long ranges inside a
text instance. To address the second issue, we devise an instance-based
transformer module to exploit the dependencies between different text instances
and a pixel-based transformer module to exploit the global context from the
shared background, which are able to collaboratively learn more discriminative
text feature representations. In this way, I3CL can effectively exploit the
intra- and inter-instance dependencies together in a unified end-to-end
trainable framework. Experimental results show that the proposed I3CL sets new
state-of-the-art performances on three challenging public benchmarks, i.e., an
F-measure of 76.4% on ICDAR2019-ArT, 86.2% on Total-Text, and 85.8% on
CTW-1500. Besides, I3CL with ResNeSt-101 backbone ranked 1st place on the
ICDAR2019-ArT leaderboard. The source code will be made publicly available.
- Abstract(参考訳): 自然シーンにおける任意の形状のテキスト検出手法は,(1)テキストインスタンスの隙間における破壊検出,(2)背景コンテキストの異なる任意型テキストインスタンスの不正確な検出という2つの重要な課題に直面している。
これらの課題に対処するため,事例間協調学習(I3CL)と呼ばれる新しい手法を提案する。
具体的には,テキストインスタンス内の局所的および長い範囲で,より優れたキャラクタ表現とギャップ特徴表現を協調的に学習できる,複数の受容場を持つ効果的な畳み込みモジュールを設計した。
2つ目の課題に対処するために、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールと、共有背景からグローバルコンテキストを活用するピクセルベースのトランスフォーマーモジュールを考案し、より差別的なテキスト特徴表現を協調的に学習する。
このようにして、I3CLは、統合されたエンドツーエンドのトレーニング可能なフレームワークにおいて、インスタンス内およびインスタンス間依存関係を効果的に活用できる。
実験の結果、提案されたi3clは3つの挑戦的な公開ベンチマーク(icdar2019-artではf-測定値76.4%、全テキストでは86.2%、ctw-1500では85.8%)で新しい最先端のパフォーマンスを設定できることがわかった。
さらに、ResNeSt-101バックボーンを持つI3CLは、ICDAR2019-ArTのリーダーボードで1位となった。
ソースコードは一般公開される予定だ。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z) - A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling [32.82620509088932]
本稿では,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案する。
CAMは、文字を個別にアンカーすることで、字型非感受性の方法でテキストをローカライズする。APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
論文 参考訳(メタデータ) (2020-02-10T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。