Fugu-MT 論文翻訳(概要): Instruction-Guided Scene Text Recognition

論文の概要: Instruction-Guided Scene Text Recognition

arxiv url: http://arxiv.org/abs/2401.17851v1
Date: Wed, 31 Jan 2024 14:13:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 14:28:36.924362
Title: Instruction-Guided Scene Text Recognition
Title（参考訳）: 指導誘導型シーンテキスト認識
Authors: Yongkun Du and Zhineng Chen and Yuchen Su and Caiyan Jia and Yu-Gang Jiang
Abstract要約: 本稿では、STRを命令学習問題として定式化する新しいパラダイムを提案する。我々は,効果的なクロスモーダル学習を実現するために,命令誘導型シーンテキスト認識(IGTR)を提案する。
参考スコア（独自算出の注目度）: 55.631064880636714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal models have shown appealing performance in visual tasks recently, as instruction-guided training has evoked the ability to understand fine-grained visual content. However, current methods cannot be trivially applied to scene text recognition (STR) due to the gap between natural and text images. In this paper, we introduce a novel paradigm that formulates STR as an instruction learning problem, and propose instruction-guided scene text recognition (IGTR) to achieve effective cross-modal learning. IGTR first generates rich and diverse instruction triplets of <condition,question,answer>, serving as guidance for nuanced text image understanding. Then, we devise an architecture with dedicated cross-modal feature fusion module, and multi-task answer head to effectively fuse the required instruction and image features for answering questions. Built upon these designs, IGTR facilitates accurate text recognition by comprehending character attributes. Experiments on English and Chinese benchmarks show that IGTR outperforms existing models by significant margins. Furthermore, by adjusting the instructions, IGTR enables various recognition schemes. These include zero-shot prediction, where the model is trained based on instructions not explicitly targeting character recognition, and the recognition of rarely appearing and morphologically similar characters, which were previous challenges for existing models.
Abstract（参考訳）: マルチモーダルモデルは最近、インストラクションガイドによるトレーニングによって、きめ細かいビジュアルコンテンツを理解する能力が引き起こされ、視覚タスクのパフォーマンスが向上している。しかし、自然画像とテキスト画像のギャップのため、シーンテキスト認識(STR)には、現在の手法は簡単には適用できない。本稿では、STRを命令学習問題として定式化する新しいパラダイムを紹介し、効果的なクロスモーダル学習を実現するための命令誘導シーンテキスト認識(IGTR)を提案する。 IGTR はまず,< Condition,question,answer> の多種多様な命令三つ子を生成し,ニュアンステキスト画像理解のためのガイダンスとして機能する。次に,クロスモーダル機能融合モジュールとマルチタスク応答ヘッドを備えたアーキテクチャを考案し,質問に回答するために必要な指示と画像機能を効果的に融合する。これらの設計に基づいてIGTRは文字属性を解釈することで正確なテキスト認識を容易にする。英語と中国語のベンチマークの実験では、IGTRは既存のモデルよりもかなりのマージンで優れていた。さらに、命令を調整することで、IGTRは様々な認識方式を可能にする。ゼロショット予測(ゼロショット予測)では、文字認識を明示的にターゲットしていない命令に基づいてモデルをトレーニングし、既存のモデルではかつての課題であった、稀で形態的に類似した文字の認識を行う。

関連論文リスト

Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文参考訳（メタデータ） (2025-08-03T20:48:43Z)
Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
TSAL: Few-shot Text Segmentation Based on Attribute Learning [21.413607725856263]
本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は効果的な適応的なプロンプトテンプレートを使用する。実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能について, 数ショット設定で検証した。
論文参考訳（メタデータ） (2025-04-15T13:12:42Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。 SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文参考訳（メタデータ） (2024-07-17T05:02:17Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。 ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文参考訳（メタデータ） (2024-03-01T06:13:53Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。 CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-11-01T05:48:18Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition [46.83992441581874]
本稿では,視覚的意味論に基づくテキスト推論を初めて試みる。我々は、テキスト推論(GTR)のためのグラフ畳み込みネットワークを、クロスエントロピー損失で監視することによって考案する。 S-GTRは6つのSTRベンチマークに新しい最先端をセットし、多言語データセットに最適化する。
論文参考訳（メタデータ） (2021-12-24T02:43:42Z)
SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。 Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文参考訳（メタデータ） (2020-03-25T09:20:28Z)
Separating Content from Style Using Adversarial Learning for Recognizing Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文参考訳（メタデータ） (2020-01-13T12:41:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。