論文の概要: Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2307.13244v1
- Date: Tue, 25 Jul 2023 04:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:26:11.651687
- Title: Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition
- Title(参考訳): 学習可能な融合によるシーンテキスト認識のための多粒度予測
- Authors: Cheng Da, Peng Wang, Cong Yao
- Abstract要約: Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 20.48454415635795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the enormous technical challenges and wide range of applications,
scene text recognition (STR) has been an active research topic in computer
vision for years. To tackle this tough problem, numerous innovative methods
have been successively proposed, and incorporating linguistic knowledge into
STR models has recently become a prominent trend. In this work, we first draw
inspiration from the recent progress in Vision Transformer (ViT) to construct a
conceptually simple yet functionally powerful vision STR model, which is built
upon ViT and a tailored Adaptive Addressing and Aggregation (A$^3$) module. It
already outperforms most previous state-of-the-art models for scene text
recognition, including both pure vision models and language-augmented methods.
To integrate linguistic knowledge, we further propose a Multi-Granularity
Prediction strategy to inject information from the language modality into the
model in an implicit way, \ie, subword representations (BPE and WordPiece)
widely used in NLP are introduced into the output space, in addition to the
conventional character level representation, while no independent language
model (LM) is adopted. To produce the final recognition results, two strategies
for effectively fusing the multi-granularity predictions are devised. The
resultant algorithm (termed MGP-STR) is able to push the performance envelope
of STR to an even higher level. Specifically, MGP-STR achieves an average
recognition accuracy of $94\%$ on standard benchmarks for scene text
recognition. Moreover, it also achieves state-of-the-art results on widely-used
handwritten benchmarks as well as more challenging scene text datasets,
demonstrating the generality of the proposed MGP-STR algorithm. The source code
and models will be available at:
\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR}.
- Abstract(参考訳): 膨大な技術的課題と幅広い応用のために、シーンテキスト認識(STR)はコンピュータビジョンにおいて長年にわたって活発に研究されてきた。
この難しい問題に取り組むために、数多くの革新的手法が提案され、strモデルに言語知識を組み込むことが最近注目されている。
本研究では、視覚変換器(ViT)の最近の進歩からインスピレーションを得て、ViTとアダプティブアドレッシング・アグリゲーション(A$^3$)モジュールを組み込んだ概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
さらに,NLP で広く使われているサブワード表現 (BPE と WordPiece) を出力空間に導入し,従来の文字レベル表現に加えて,独立した言語モデル (LM) を採用せずに,言語モダリティからモデルに情報を暗黙的に注入する多言語予測手法を提案する。
最終認識結果を生成するために,多粒度予測を効果的に融合する2つの戦略を考案した。
結果のアルゴリズム(MGP-STRと呼ばれる)はSTRのパフォーマンスエンベロープをさらに高いレベルに押し上げることができる。
特にmgp-strは、シーンテキスト認識の標準ベンチマークで平均認識精度が9,4\%である。
さらに、広く使われている手書きベンチマークの最先端結果や、より困難なシーンテキストデータセットも達成し、提案したMGP-STRアルゴリズムの汎用性を実証した。
ソースコードとモデルは以下の通りである。 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR}。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer [32.657218195756414]
野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。
E$2$STRは、コンテキストに富んだシーンテキストシーケンスでトレーニングされたSTRモデルで、提案したインコンテキストトレーニング戦略を介してシーケンスを生成する。
E$2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-11-22T02:46:57Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Multi-Granularity Prediction for Scene Text Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
まず、視覚変換器(ViT)の最近の進歩からインスピレーションを得て、概念的にシンプルだが強力な視覚STRモデルを構築する。
本稿では,言語モーダリティから情報を暗黙的にモデルに注入するマルチグラニュラリティ予測手法を提案する。
結果のアルゴリズム(MGP-STRと呼ばれる)はSTRの性能をさらに高いレベルに押し上げることができる。
論文 参考訳(メタデータ) (2022-09-08T06:43:59Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Multimodal Conditionality for Natural Language Generation [0.0]
MAnTiSは、トランスフォーマーベースの自然言語生成モデルにおけるマルチモーダル条件に対する一般的なアプローチである。
我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。
論文 参考訳(メタデータ) (2021-09-02T22:06:07Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。