論文の概要: Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition
- arxiv url: http://arxiv.org/abs/2402.15806v1
- Date: Sat, 24 Feb 2024 13:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:51:32.033688
- Title: Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition
- Title(参考訳): 半教師付きテキスト認識における逐次的視覚的・意味的一貫性
- Authors: Mingkun Yang, Biao Yang, Minghui Liao, Yingying Zhu, Xiang Bai
- Abstract要約: Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 56.968108142307976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is a challenging task that requires large-scale
annotated data for training. However, collecting and labeling real text images
is expensive and time-consuming, which limits the availability of real data.
Therefore, most existing STR methods resort to synthetic data, which may
introduce domain discrepancy and degrade the performance of STR models. To
alleviate this problem, recent semi-supervised STR methods exploit unlabeled
real data by enforcing character-level consistency regularization between
weakly and strongly augmented views of the same image. However, these methods
neglect word-level consistency, which is crucial for sequence recognition
tasks. This paper proposes a novel semi-supervised learning method for STR that
incorporates word-level consistency regularization from both visual and
semantic aspects. Specifically, we devise a shortest path alignment module to
align the sequential visual features of different views and minimize their
distance. Moreover, we adopt a reinforcement learning framework to optimize the
semantic similarity of the predicted strings in the embedding space. We conduct
extensive experiments on several standard and challenging STR benchmarks and
demonstrate the superiority of our proposed method over existing
semi-supervised STR methods.
- Abstract(参考訳): Scene Text Recognition (STR) は、大規模な注釈付きデータを必要とする課題である。
しかし、実際のテキスト画像の収集とラベリングは高価で時間がかかり、実際のデータの可用性が制限される。
したがって、既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データを利用する。
この問題を緩和するために、最近の半教師付きSTR法は、同じ画像の弱い画像と強い拡張ビューの間の文字レベルの整合性正規化を強制することにより、ラベルのない実データを利用する。
しかし、これらの手法は単語レベルの一貫性を無視しており、シーケンス認識タスクには不可欠である。
本稿では,視覚面と意味面の両方から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
具体的には、異なるビューのシーケンシャルな視覚的特徴を調整し、距離を最小化する最短経路アライメントモジュールを考案する。
さらに,埋め込み空間における予測文字列の意味的類似性を最適化するために,強化学習フレームワークを採用する。
提案手法が既存の半教師付きSTR法よりも優れていることを示す。
関連論文リスト
- Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。