論文の概要: Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.11934v1
- Date: Mon, 25 Jul 2022 06:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:47:50.981102
- Title: Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning
- Title(参考訳): 最適ボックス:強化学習によるアノテーション付きバウンディングボックスの調整によるエンド・ツー・エンドシーンテキスト認識の促進
- Authors: Jingqun Tang, Wenming Qian, Luchuan Song, Xiena Dong, Lan Li, Xiang
Bai
- Abstract要約: Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
- 参考スコア(独自算出の注目度): 41.56134008044702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text detection and recognition are essential components of a modern OCR
system. Most OCR approaches attempt to obtain accurate bounding boxes of text
at the detection stage, which is used as the input of the text recognition
stage. We observe that when using tight text bounding boxes as input, a text
recognizer frequently fails to achieve optimal performance due to the
inconsistency between bounding boxes and deep representations of text
recognition. In this paper, we propose Box Adjuster, a reinforcement
learning-based method for adjusting the shape of each text bounding box to make
it more compatible with text recognition models. Additionally, when dealing
with cross-domain problems such as synthetic-to-real, the proposed method
significantly reduces mismatches in domain distribution between the source and
target domains. Experiments demonstrate that the performance of end-to-end text
recognition systems can be improved when using the adjusted bounding boxes as
the ground truths for training. Specifically, on several benchmark datasets for
scene text understanding, the proposed method outperforms state-of-the-art text
spotters by an average of 2.0% F-Score on end-to-end text recognition tasks and
4.6% F-Score on domain adaptation tasks.
- Abstract(参考訳): テキストの検出と認識は、現代のOCRシステムにおいて不可欠な要素である。
ほとんどのocrアプローチは、テキスト認識段階の入力として使用される検出段階において、正確なテキスト境界ボックスの取得を試みる。
タイトなテキストバウンディングボックスを入力として使用する場合、テキスト認識器は、バウンディングボックスとテキスト認識の深部表現との矛盾により、最適性能を達成できないことが多い。
本稿では,テキスト認識モデルとの適合性を高めるために,各テキスト境界ボックスの形状を調整する強化学習ベース手法であるbox adjusterを提案する。
さらに,合成と現実のようなドメイン間の問題を扱う場合,提案手法はソースと対象ドメイン間のドメイン分布のミスマッチを著しく低減する。
学習のための基礎的真理として調整された境界ボックスを使用する場合,エンドツーエンドのテキスト認識システムの性能が向上することを示す実験を行った。
具体的には、シーンテキスト理解のためのいくつかのベンチマークデータセットにおいて、提案手法は、エンドツーエンドテキスト認識タスクで平均2.0%f-score、ドメイン適応タスクで4.6%f-scoreで最先端テキストスポッターを上回る。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter [37.86206423441885]
我々は、Auto-Rectification Text Spotter (ARTS)と呼ばれる、シンプルだが堅牢なエンドツーエンドテキストスポッティングフレームワークを提案する。
本手法は10.5FPSの競争速度で全テキスト上のF値の77.1%のエンドツーエンドテキストスポッティングを実現する。
論文 参考訳(メタデータ) (2021-10-20T06:53:44Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。