論文の概要: Word length-aware text spotting: Enhancing detection and recognition in
dense text image
- arxiv url: http://arxiv.org/abs/2312.15690v1
- Date: Mon, 25 Dec 2023 10:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:51:23.755812
- Title: Word length-aware text spotting: Enhancing detection and recognition in
dense text image
- Title(参考訳): 単語長対応テキストスポッティング:高密度テキスト画像における検出と認識の強化
- Authors: Hao Wang, Huabing Zhou, Yanduo Zhang, Tao Lu and Jiayi Ma
- Abstract要約: シーンテキスト画像の検出と認識のための新しい単語長認識スポッターであるWordLenSpotterを提案する。
我々は、特に高密度テキスト画像の尾データにおいて、長短の単語のスポッティング機能を改善する。
- 参考スコア(独自算出の注目度): 33.44340604133642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text spotting is essential in various computer vision applications,
enabling extracting and interpreting textual information from images. However,
existing methods often neglect the spatial semantics of word images, leading to
suboptimal detection recall rates for long and short words within long-tailed
word length distributions that exist prominently in dense scenes. In this
paper, we present WordLenSpotter, a novel word length-aware spotter for scene
text image detection and recognition, improving the spotting capabilities for
long and short words, particularly in the tail data of dense text images. We
first design an image encoder equipped with a dilated convolutional fusion
module to integrate multiscale text image features effectively. Then,
leveraging the Transformer framework, we synergistically optimize text
detection and recognition accuracy after iteratively refining text region image
features using the word length prior. Specially, we design a Spatial Length
Predictor module (SLP) using character count prior tailored to different word
lengths to constrain the regions of interest effectively. Furthermore, we
introduce a specialized word Length-aware Segmentation (LenSeg) proposal head,
enhancing the network's capacity to capture the distinctive features of long
and short terms within categories characterized by long-tailed distributions.
Comprehensive experiments on public datasets and our dense text spotting
dataset DSTD1500 demonstrate the superiority of our proposed methods,
particularly in dense text image detection and recognition tasks involving
long-tailed word length distributions encompassing a range of long and short
words.
- Abstract(参考訳): シーンテキストスポッティングは様々なコンピュータビジョンアプリケーションにおいて必須であり、画像からテキスト情報を抽出し解釈することができる。
しかし、既存の手法では、単語画像の空間的意味を無視することが多く、密集したシーンに顕著に存在する長い単語の長さ分布の中で、長単語と短単語の副最適検出リコール率をもたらす。
本稿では、シーンテキスト画像の検出と認識のための新しい単語長対応スポッターであるWordLenSpotterについて、特に高密度テキスト画像の尾データにおける長短単語のスポッティング機能を改善する。
まず,拡張畳み込み融合モジュールを備えた画像エンコーダの設計を行い,マルチスケールテキスト画像の特徴を効果的に統合する。
次に, Transformer フレームワークを利用して, 単語長を用いてテキスト領域の特徴を反復的に修正した後, テキスト検出と認識の精度を相乗的に最適化する。
特に,異なる単語長に事前調整した文字数を用いて空間長予測モジュール(slp)を設計し,関心領域を効果的に制約する。
さらに,単語長認識セグメンテーション(lenseg)の提案ヘッドを導入し,ロングテール分布を特徴とするカテゴリにおいて,長短項の特徴を捉えるネットワークの能力を向上させる。
dstd1500の公開データセットと高密度テキストスポッティングデータセットに関する包括的実験により,提案手法の優れていることを示す。
関連論文リスト
- LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
長いテキスト理解は、言語イメージ事前学習モデルにおいて大きな要求である。
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
自己構築型大規模データセットを用いて,提案手法の有効性を検証する。
長文画像検索のタスクでは、11.1%改善した長文キャプションで競合相手に勝っている点が注目に値する。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition [27.280917081410955]
LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
論文 参考訳(メタデータ) (2023-08-24T13:26:18Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - IDEA: Increasing Text Diversity via Online Multi-Label Recognition for
Vision-Language Pre-training [18.898969509263804]
IDEAは、Vision-Language事前トレーニングのためのオンラインマルチラベル認識を通じて、テキストの多様性を高めるためのものだ。
IDEAは、少ない計算コストで、複数の下流データセットのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:14:27Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding [6.4901484665257545]
本稿では,視覚的およびテキスト的データの様々なコンポーネントを,データの重要な部分に参加することによってキャプチャする,新しいマルチヘッド自己注意ネットワークを提案する。
提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。
論文 参考訳(メタデータ) (2020-01-11T05:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。