論文の概要: TEACH: Text Encoding as Curriculum Hints for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2508.01153v1
- Date: Sat, 02 Aug 2025 02:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.733188
- Title: TEACH: Text Encoding as Curriculum Hints for Scene Text Recognition
- Title(参考訳): TEACH: シーンテキスト認識のためのカリキュラムヒントとしてのテキスト符号化
- Authors: Xiahan Yang, Hui Zheng,
- Abstract要約: Scene Text Recognition (STR) は、複雑な視覚的外観と限定的なセマンティック先行のために難しい課題である。
そこで本研究では,新たな学習パラダイムであるTAACHを提案する。
対象ラベルを埋め込み空間にエンコードし、損失認識マスキングを適用することにより、TEACHは、ラベル依存学習から完全な視覚認識へモデルを導くカリキュラム学習プロセスをシミュレートする。
- 参考スコア(独自算出の注目度): 3.9795399898791017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition (STR) remains a challenging task due to complex visual appearances and limited semantic priors. We propose TEACH, a novel training paradigm that injects ground-truth text into the model as auxiliary input and progressively reduces its influence during training. By encoding target labels into the embedding space and applying loss-aware masking, TEACH simulates a curriculum learning process that guides the model from label-dependent learning to fully visual recognition. Unlike language model-based approaches, TEACH requires no external pretraining and introduces no inference overhead. It is model-agnostic and can be seamlessly integrated into existing encoder-decoder frameworks. Extensive experiments across multiple public benchmarks show that models trained with TEACH achieve consistently improved accuracy, especially under challenging conditions, validating its robustness and general applicability.
- Abstract(参考訳): Scene Text Recognition (STR) は、複雑な視覚的外観と限定的なセマンティック先行のために難しい課題である。
そこで本研究では,新たな学習パラダイムであるTAACHを提案する。
対象ラベルを埋め込み空間にエンコードし、損失認識マスキングを適用することにより、TEACHは、ラベル依存学習から完全な視覚認識へモデルを導くカリキュラム学習プロセスをシミュレートする。
言語モデルベースのアプローチとは異なり、TEACHは外部の事前トレーニングを必要とせず、推論オーバーヘッドも発生しない。
モデルに依存しないため、既存のエンコーダ/デコーダフレームワークにシームレスに統合できる。
複数の公開ベンチマークにわたる大規模な実験により、TEACHでトレーニングされたモデルは、特に困難な条件下で、一貫して精度を向上し、その堅牢性と一般的な適用性を検証することが示されている。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - LEGO: Self-Supervised Representation Learning for Scene Text Images [32.21085469233465]
本研究では,シーンテキスト画像に対する局所的・グローバル的順序対応型自己教師型表現学習手法を提案する。
単語を学習する人間の認知プロセスにインスパイアされて、LEGOのシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
LEGO認識器は、6つのベンチマーク上での最先端のシーンテキスト認識方法よりも優れた、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-04T14:07:14Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
IGTRはまず、$left langle condition,question,answerright rungle$ instruction tripletを考案し、文字属性のリッチで多様な記述を提供する。
IGTRは,これらの属性を質問応答により効果的に学習するために,軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:35:18Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。