論文の概要: Instruction-Guided Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2401.17851v1
- Date: Wed, 31 Jan 2024 14:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:28:36.924362
- Title: Instruction-Guided Scene Text Recognition
- Title(参考訳): 指導誘導型シーンテキスト認識
- Authors: Yongkun Du and Zhineng Chen and Yuchen Su and Caiyan Jia and Yu-Gang
Jiang
- Abstract要約: 本稿では、STRを命令学習問題として定式化する新しいパラダイムを提案する。
我々は,効果的なクロスモーダル学習を実現するために,命令誘導型シーンテキスト認識(IGTR)を提案する。
- 参考スコア(独自算出の注目度): 55.631064880636714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal models have shown appealing performance in visual tasks recently,
as instruction-guided training has evoked the ability to understand
fine-grained visual content. However, current methods cannot be trivially
applied to scene text recognition (STR) due to the gap between natural and text
images. In this paper, we introduce a novel paradigm that formulates STR as an
instruction learning problem, and propose instruction-guided scene text
recognition (IGTR) to achieve effective cross-modal learning. IGTR first
generates rich and diverse instruction triplets of <condition,question,answer>,
serving as guidance for nuanced text image understanding. Then, we devise an
architecture with dedicated cross-modal feature fusion module, and multi-task
answer head to effectively fuse the required instruction and image features for
answering questions. Built upon these designs, IGTR facilitates accurate text
recognition by comprehending character attributes. Experiments on English and
Chinese benchmarks show that IGTR outperforms existing models by significant
margins. Furthermore, by adjusting the instructions, IGTR enables various
recognition schemes. These include zero-shot prediction, where the model is
trained based on instructions not explicitly targeting character recognition,
and the recognition of rarely appearing and morphologically similar characters,
which were previous challenges for existing models.
- Abstract(参考訳): マルチモーダルモデルは最近、インストラクションガイドによるトレーニングによって、きめ細かいビジュアルコンテンツを理解する能力が引き起こされ、視覚タスクのパフォーマンスが向上している。
しかし、自然画像とテキスト画像のギャップのため、シーンテキスト認識(STR)には、現在の手法は簡単には適用できない。
本稿では、STRを命令学習問題として定式化する新しいパラダイムを紹介し、効果的なクロスモーダル学習を実現するための命令誘導シーンテキスト認識(IGTR)を提案する。
IGTR はまず,< Condition,question,answer> の多種多様な命令三つ子を生成し,ニュアンステキスト画像理解のためのガイダンスとして機能する。
次に,クロスモーダル機能融合モジュールとマルチタスク応答ヘッドを備えたアーキテクチャを考案し,質問に回答するために必要な指示と画像機能を効果的に融合する。
これらの設計に基づいてIGTRは文字属性を解釈することで正確なテキスト認識を容易にする。
英語と中国語のベンチマークの実験では、IGTRは既存のモデルよりもかなりのマージンで優れていた。
さらに、命令を調整することで、IGTRは様々な認識方式を可能にする。
ゼロショット予測(ゼロショット予測)では、文字認識を明示的にターゲットしていない命令に基づいてモデルをトレーニングし、既存のモデルではかつての課題であった、稀で形態的に類似した文字の認識を行う。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Visual Semantics Allow for Textual Reasoning Better in Scene Text
Recognition [46.83992441581874]
本稿では,視覚的意味論に基づくテキスト推論を初めて試みる。
我々は、テキスト推論(GTR)のためのグラフ畳み込みネットワークを、クロスエントロピー損失で監視することによって考案する。
S-GTRは6つのSTRベンチマークに新しい最先端をセットし、多言語データセットに最適化する。
論文 参考訳(メタデータ) (2021-12-24T02:43:42Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。