論文の概要: Instruction-Guided Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2401.17851v1
- Date: Wed, 31 Jan 2024 14:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:28:36.924362
- Title: Instruction-Guided Scene Text Recognition
- Title(参考訳): 指導誘導型シーンテキスト認識
- Authors: Yongkun Du and Zhineng Chen and Yuchen Su and Caiyan Jia and Yu-Gang
Jiang
- Abstract要約: 本稿では、STRを命令学習問題として定式化する新しいパラダイムを提案する。
我々は,効果的なクロスモーダル学習を実現するために,命令誘導型シーンテキスト認識(IGTR)を提案する。
- 参考スコア(独自算出の注目度): 55.631064880636714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal models have shown appealing performance in visual tasks recently,
as instruction-guided training has evoked the ability to understand
fine-grained visual content. However, current methods cannot be trivially
applied to scene text recognition (STR) due to the gap between natural and text
images. In this paper, we introduce a novel paradigm that formulates STR as an
instruction learning problem, and propose instruction-guided scene text
recognition (IGTR) to achieve effective cross-modal learning. IGTR first
generates rich and diverse instruction triplets of <condition,question,answer>,
serving as guidance for nuanced text image understanding. Then, we devise an
architecture with dedicated cross-modal feature fusion module, and multi-task
answer head to effectively fuse the required instruction and image features for
answering questions. Built upon these designs, IGTR facilitates accurate text
recognition by comprehending character attributes. Experiments on English and
Chinese benchmarks show that IGTR outperforms existing models by significant
margins. Furthermore, by adjusting the instructions, IGTR enables various
recognition schemes. These include zero-shot prediction, where the model is
trained based on instructions not explicitly targeting character recognition,
and the recognition of rarely appearing and morphologically similar characters,
which were previous challenges for existing models.
- Abstract(参考訳): マルチモーダルモデルは最近、インストラクションガイドによるトレーニングによって、きめ細かいビジュアルコンテンツを理解する能力が引き起こされ、視覚タスクのパフォーマンスが向上している。
しかし、自然画像とテキスト画像のギャップのため、シーンテキスト認識(STR)には、現在の手法は簡単には適用できない。
本稿では、STRを命令学習問題として定式化する新しいパラダイムを紹介し、効果的なクロスモーダル学習を実現するための命令誘導シーンテキスト認識(IGTR)を提案する。
IGTR はまず,< Condition,question,answer> の多種多様な命令三つ子を生成し,ニュアンステキスト画像理解のためのガイダンスとして機能する。
次に,クロスモーダル機能融合モジュールとマルチタスク応答ヘッドを備えたアーキテクチャを考案し,質問に回答するために必要な指示と画像機能を効果的に融合する。
これらの設計に基づいてIGTRは文字属性を解釈することで正確なテキスト認識を容易にする。
英語と中国語のベンチマークの実験では、IGTRは既存のモデルよりもかなりのマージンで優れていた。
さらに、命令を調整することで、IGTRは様々な認識方式を可能にする。
ゼロショット予測(ゼロショット予測)では、文字認識を明示的にターゲットしていない命令に基づいてモデルをトレーニングし、既存のモデルではかつての課題であった、稀で形態的に類似した文字の認識を行う。
関連論文リスト
- Representing Online Handwriting for Recognition in Large Vision-Language
Models [8.344510330567495]
本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T13:11:10Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model [73.33909351531463]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization [66.35116147275568]
自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-20T08:43:10Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。