論文の概要: IterVM: Iterative Vision Modeling Module for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2204.02630v1
- Date: Wed, 6 Apr 2022 07:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:06:55.865969
- Title: IterVM: Iterative Vision Modeling Module for Scene Text Recognition
- Title(参考訳): IterVM: シーンテキスト認識のための反復視覚モデリングモジュール
- Authors: Xiaojie Chu and Yongtao Wang
- Abstract要約: シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。
STRの精度をさらに向上するために、反復視覚モデリングモジュール(IterVM)を提案する。
IterVMは、特に低品質のシーンテキスト画像において、シーンテキスト認識精度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 10.417738567452947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is a challenging problem due to the imperfect
imagery conditions in natural images. State-of-the-art methods utilize both
visual cues and linguistic knowledge to tackle this challenging problem.
Specifically, they propose iterative language modeling module (IterLM) to
repeatedly refine the output sequence from the visual modeling module (VM).
Though achieving promising results, the vision modeling module has become the
performance bottleneck of these methods. In this paper, we newly propose
iterative vision modeling module (IterVM) to further improve the STR accuracy.
Specifically, the first VM directly extracts multi-level features from the
input image, and the following VMs re-extract multi-level features from the
input image and fuse them with the high-level (i.e., the most semantic one)
feature extracted by the previous VM. By combining the proposed IterVM with
iterative language modeling module, we further propose a powerful scene text
recognizer called IterNet. Extensive experiments demonstrate that the proposed
IterVM can significantly improve the scene text recognition accuracy,
especially on low-quality scene text images. Moreover, the proposed scene text
recognizer IterNet achieves new state-of-the-art results on several public
benchmarks. Codes will be available at https://github.com/VDIGPKU/IterNet.
- Abstract(参考訳): シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。
最先端の手法は視覚的な手がかりと言語知識の両方を利用してこの問題に取り組む。
具体的には、視覚モデリングモジュール(VM)から繰り返し出力シーケンスを洗練するための反復言語モデリングモジュール(IterLM)を提案する。
有望な結果が得られたが、vision modelingモジュールはこれらのメソッドのパフォーマンスボトルネックになっている。
本稿では,STRの精度を向上させるために,反復視覚モデリングモジュール(IterVM)を提案する。
具体的には、第1のVMは入力画像から直接マルチレベル特徴を抽出し、以下のVMは入力画像からマルチレベル特徴を再抽出し、前のVMから抽出された高レベル(つまり最も意味のある)特徴と融合する。
また,提案したIterVMと反復言語モデリングモジュールを組み合わせることで,IterNetという強力なシーンテキスト認識機能を提案する。
広範な実験により,提案手法は,特に低品質のシーンテキスト画像において,シーン認識精度を大幅に向上できることが証明された。
さらに,提案するシーンテキスト認識システムであるiternetは,いくつかの公開ベンチマークで新たな最先端結果を達成している。
コードはhttps://github.com/VDIGPKU/IterNetで入手できる。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。