論文の概要: IterVM: Iterative Vision Modeling Module for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2204.02630v1
- Date: Wed, 6 Apr 2022 07:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:06:55.865969
- Title: IterVM: Iterative Vision Modeling Module for Scene Text Recognition
- Title(参考訳): IterVM: シーンテキスト認識のための反復視覚モデリングモジュール
- Authors: Xiaojie Chu and Yongtao Wang
- Abstract要約: シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。
STRの精度をさらに向上するために、反復視覚モデリングモジュール(IterVM)を提案する。
IterVMは、特に低品質のシーンテキスト画像において、シーンテキスト認識精度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 10.417738567452947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is a challenging problem due to the imperfect
imagery conditions in natural images. State-of-the-art methods utilize both
visual cues and linguistic knowledge to tackle this challenging problem.
Specifically, they propose iterative language modeling module (IterLM) to
repeatedly refine the output sequence from the visual modeling module (VM).
Though achieving promising results, the vision modeling module has become the
performance bottleneck of these methods. In this paper, we newly propose
iterative vision modeling module (IterVM) to further improve the STR accuracy.
Specifically, the first VM directly extracts multi-level features from the
input image, and the following VMs re-extract multi-level features from the
input image and fuse them with the high-level (i.e., the most semantic one)
feature extracted by the previous VM. By combining the proposed IterVM with
iterative language modeling module, we further propose a powerful scene text
recognizer called IterNet. Extensive experiments demonstrate that the proposed
IterVM can significantly improve the scene text recognition accuracy,
especially on low-quality scene text images. Moreover, the proposed scene text
recognizer IterNet achieves new state-of-the-art results on several public
benchmarks. Codes will be available at https://github.com/VDIGPKU/IterNet.
- Abstract(参考訳): シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。
最先端の手法は視覚的な手がかりと言語知識の両方を利用してこの問題に取り組む。
具体的には、視覚モデリングモジュール(VM)から繰り返し出力シーケンスを洗練するための反復言語モデリングモジュール(IterLM)を提案する。
有望な結果が得られたが、vision modelingモジュールはこれらのメソッドのパフォーマンスボトルネックになっている。
本稿では,STRの精度を向上させるために,反復視覚モデリングモジュール(IterVM)を提案する。
具体的には、第1のVMは入力画像から直接マルチレベル特徴を抽出し、以下のVMは入力画像からマルチレベル特徴を再抽出し、前のVMから抽出された高レベル(つまり最も意味のある)特徴と融合する。
また,提案したIterVMと反復言語モデリングモジュールを組み合わせることで,IterNetという強力なシーンテキスト認識機能を提案する。
広範な実験により,提案手法は,特に低品質のシーンテキスト画像において,シーン認識精度を大幅に向上できることが証明された。
さらに,提案するシーンテキスト認識システムであるiternetは,いくつかの公開ベンチマークで新たな最先端結果を達成している。
コードはhttps://github.com/VDIGPKU/IterNetで入手できる。
関連論文リスト
- Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。