Fugu-MT 論文翻訳(概要): IterVM: Iterative Vision Modeling Module for Scene Text Recognition

論文の概要: IterVM: Iterative Vision Modeling Module for Scene Text Recognition

arxiv url: http://arxiv.org/abs/2204.02630v1
Date: Wed, 6 Apr 2022 07:19:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 14:06:55.865969
Title: IterVM: Iterative Vision Modeling Module for Scene Text Recognition
Title（参考訳）: IterVM: シーンテキスト認識のための反復視覚モデリングモジュール
Authors: Xiaojie Chu and Yongtao Wang
Abstract要約: シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。 STRの精度をさらに向上するために、反復視覚モデリングモジュール(IterVM)を提案する。 IterVMは、特に低品質のシーンテキスト画像において、シーンテキスト認識精度を大幅に向上させることができる。
参考スコア（独自算出の注目度）: 10.417738567452947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text recognition (STR) is a challenging problem due to the imperfect imagery conditions in natural images. State-of-the-art methods utilize both visual cues and linguistic knowledge to tackle this challenging problem. Specifically, they propose iterative language modeling module (IterLM) to repeatedly refine the output sequence from the visual modeling module (VM). Though achieving promising results, the vision modeling module has become the performance bottleneck of these methods. In this paper, we newly propose iterative vision modeling module (IterVM) to further improve the STR accuracy. Specifically, the first VM directly extracts multi-level features from the input image, and the following VMs re-extract multi-level features from the input image and fuse them with the high-level (i.e., the most semantic one) feature extracted by the previous VM. By combining the proposed IterVM with iterative language modeling module, we further propose a powerful scene text recognizer called IterNet. Extensive experiments demonstrate that the proposed IterVM can significantly improve the scene text recognition accuracy, especially on low-quality scene text images. Moreover, the proposed scene text recognizer IterNet achieves new state-of-the-art results on several public benchmarks. Codes will be available at https://github.com/VDIGPKU/IterNet.
Abstract（参考訳）: シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。最先端の手法は視覚的な手がかりと言語知識の両方を利用してこの問題に取り組む。具体的には、視覚モデリングモジュール(VM)から繰り返し出力シーケンスを洗練するための反復言語モデリングモジュール(IterLM)を提案する。有望な結果が得られたが、vision modelingモジュールはこれらのメソッドのパフォーマンスボトルネックになっている。本稿では,STRの精度を向上させるために,反復視覚モデリングモジュール(IterVM)を提案する。具体的には、第1のVMは入力画像から直接マルチレベル特徴を抽出し、以下のVMは入力画像からマルチレベル特徴を再抽出し、前のVMから抽出された高レベル(つまり最も意味のある)特徴と融合する。また,提案したIterVMと反復言語モデリングモジュールを組み合わせることで,IterNetという強力なシーンテキスト認識機能を提案する。広範な実験により,提案手法は,特に低品質のシーンテキスト画像において,シーン認識精度を大幅に向上できることが証明された。さらに,提案するシーンテキスト認識システムであるiternetは,いくつかの公開ベンチマークで新たな最先端結果を達成している。コードはhttps://github.com/VDIGPKU/IterNetで入手できる。

関連論文リスト

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文参考訳（メタデータ） (2025-08-01T18:19:51Z)
Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文参考訳（メタデータ） (2025-07-11T13:38:01Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文参考訳（メタデータ） (2022-11-04T08:50:09Z)
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。 GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文参考訳（メタデータ） (2021-04-26T17:55:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。