論文の概要: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer
- arxiv url: http://arxiv.org/abs/2311.13120v3
- Date: Thu, 28 Mar 2024 08:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:22:07.763329
- Title: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer
- Title(参考訳): マルチモーダル・インコンテキスト・ラーニングによるエゴ進化型シーンテキスト認識
- Authors: Zhen Zhao, Jingqun Tang, Chunhui Lin, Binghong Wu, Can Huang, Hao Liu, Xin Tan, Zhizhong Zhang, Yuan Xie,
- Abstract要約: 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。
E$2$STRは、コンテキストに富んだシーンテキストシーケンスでトレーニングされたSTRモデルで、提案したインコンテキストトレーニング戦略を介してシーケンスを生成する。
E$2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 32.657218195756414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) in the wild frequently encounters challenges when coping with domain variations, font diversity, shape deformations, etc. A straightforward solution is performing model fine-tuning tailored to a specific scenario, but it is computationally intensive and requires multiple model copies for various scenarios. Recent studies indicate that large language models (LLMs) can learn from a few demonstration examples in a training-free manner, termed "In-Context Learning" (ICL). Nevertheless, applying LLMs as a text recognizer is unacceptably resource-consuming. Moreover, our pilot experiments on LLMs show that ICL fails in STR, mainly attributed to the insufficient incorporation of contextual information from diverse samples in the training stage. To this end, we introduce E$^2$STR, a STR model trained with context-rich scene text sequences, where the sequences are generated via our proposed in-context training strategy. E$^2$STR demonstrates that a regular-sized model is sufficient to achieve effective ICL capabilities in STR. Extensive experiments show that E$^2$STR exhibits remarkable training-free adaptation in various scenarios and outperforms even the fine-tuned state-of-the-art approaches on public benchmarks. The code is released at https://github.com/bytedance/E2STR .
- Abstract(参考訳): 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。
直感的な解決策は、特定のシナリオに合わせて微調整されたモデルを実行することだが、計算集約であり、様々なシナリオに対して複数のモデルコピーを必要とする。
近年の研究では、大規模言語モデル(LLM)が、訓練のない方法でいくつかの実演例から学習できることが示されている。
それでも、LLMをテキスト認識器として適用することは許容できないリソース消費である。
さらに,本実験の結果から,ILCがSTRで失敗するのは,学習段階における多様なサンプルからの文脈情報の組み入れが不十分であったためと考えられる。
そこで本稿では,コンテキストに富んだシーンテキストシーケンスをトレーニングしたSTRモデルであるE$^2$STRを紹介し,提案したコンテキスト内トレーニング戦略を用いてシーケンスを生成する。
E$^2$STR は、STR において有効な ICL 機能を達成するのに、正規サイズのモデルで十分であることを示す。
大規模な実験により、E$^2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端アプローチよりも優れていた。
コードはhttps://github.com/bytedance/E2STR で公開されている。
関連論文リスト
- The representation landscape of few-shot learning and fine-tuning in large language models [43.76048699313088]
In-context Learning (ICL) と supervised Fine-tuning (SFT) は、現代の大規模言語モデル (LLM) の性能向上のための2つの一般的な戦略である。
この2つの事例において,隠れた表現の確率的景観を解析した。
ICLとSFTは、どちらもネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成する。
論文 参考訳(メタデータ) (2024-09-05T16:15:12Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。