論文の概要: Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2503.18746v1
- Date: Mon, 24 Mar 2025 14:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:33.984464
- Title: Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition
- Title(参考訳): 自己教師付きシーン音声認識のための言語学的マズード画像モデリング
- Authors: Yifei Zhang, Chang Liu, Jin Wei, Xiaomeng Yang, Yu Zhou, Can Ma, Xiangyang Ji,
- Abstract要約: マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
- 参考スコア(独自算出の注目度): 50.86415025650168
- License:
- Abstract: Text images are unique in their dual nature, encompassing both visual and linguistic information. The visual component encompasses structural and appearance-based features, while the linguistic dimension incorporates contextual and semantic elements. In scenarios with degraded visual quality, linguistic patterns serve as crucial supplements for comprehension, highlighting the necessity of integrating both aspects for robust scene text recognition (STR). Contemporary STR approaches often use language models or semantic reasoning modules to capture linguistic features, typically requiring large-scale annotated datasets. Self-supervised learning, which lacks annotations, presents challenges in disentangling linguistic features related to the global context. Typically, sequence contrastive learning emphasizes the alignment of local features, while masked image modeling (MIM) tends to exploit local structures to reconstruct visual patterns, resulting in limited linguistic knowledge. In this paper, we propose a Linguistics-aware Masked Image Modeling (LMIM) approach, which channels the linguistic information into the decoding process of MIM through a separate branch. Specifically, we design a linguistics alignment module to extract vision-independent features as linguistic guidance using inputs with different visual appearances. As features extend beyond mere visual structures, LMIM must consider the global context to achieve reconstruction. Extensive experiments on various benchmarks quantitatively demonstrate our state-of-the-art performance, and attention visualizations qualitatively show the simultaneous capture of both visual and linguistic information.
- Abstract(参考訳): テキストイメージは、視覚情報と言語情報の両方を含む、その双対の性質においてユニークなものである。
視覚的要素は構造的特徴と外観的特徴を包含し、言語的次元は文脈的要素と意味的要素を包含する。
劣化した視覚的品質のシナリオでは、言語パターンは理解にとって重要な補助となり、堅牢なシーンテキスト認識(STR)のために両方の側面を統合する必要性を強調している。
現代のSTRアプローチは言語モデルやセマンティック推論モジュールを使って言語的特徴を捉え、通常は大規模な注釈付きデータセットを必要とする。
アノテーションが欠如している自己教師型学習は、グローバルな文脈に関連する言語的特徴を両立させる際の課題を提示する。
通常、シーケンスコントラスト学習は局所的な特徴のアライメントを強調するが、マスク付き画像モデリング(MIM)は視覚パターンを再構築するために局所構造を利用する傾向があるため、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連付ける,言語学対応のMasked Image Modeling (LMIM)アプローチを提案する。
具体的には、視覚的な外観の異なる入力を用いて、視覚に依存しない特徴を言語指導として抽出する言語アライメントモジュールを設計する。
特徴が単なる視覚的構造を超えて広がるため、LMIMは再建を実現するためにグローバルな文脈を考慮しなければならない。
様々なベンチマークによる広範囲な実験は、我々の最先端の性能を定量的に証明し、注意の可視化は、視覚情報と言語情報の同時取得を質的に示す。
関連論文リスト
- Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference [24.58277380514406]
自然言語推論(NLI)は自然言語処理において重要な課題である。
本稿では,大規模な事前学習型言語知識と関連する視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。
我々のアプローチは言語と視覚のギャップを埋め、NLIタスクにおける理解と推論能力の改善につながります。
論文 参考訳(メタデータ) (2024-05-21T01:19:52Z) - Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition [43.61569815081384]
テキスト画像中の局所的特徴と言語情報を同時に捉えるための対称性重畳モデルを提案する。
画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。
特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。
論文 参考訳(メタデータ) (2024-05-09T15:23:38Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。