論文の概要: Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies
- arxiv url: http://arxiv.org/abs/2505.06855v1
- Date: Sun, 11 May 2025 05:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.073849
- Title: Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies
- Title(参考訳): 複数のマスキング戦略を用いた低レベル・高レベルテキスト表現学習
- Authors: Zhengmi Tang, Yuto Mitsui, Tomo Miyazaki, Shinichiro Omachi,
- Abstract要約: 合成画像は実世界のシナリオを忠実に再現することができないため、複雑な実世界のイメージを扱う際には性能の相違が生じる。
近年の自己教師付き学習技術,特にコントラスト学習とマスク付き画像モデリングは,未ラベルの実際のテキスト画像を利用して領域ギャップを狭めている。
我々のMMS(Multi-Masking Strategy)は、ランダムパッチ、ブロックワイズ、スパンマスクをMIMフレームに統合し、低レベルのテキスト表現と高レベルのテキスト表現を共同で学習する。
- 参考スコア(独自算出の注目度): 3.7498611358320733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most existing text recognition methods are trained on large-scale synthetic datasets due to the scarcity of labeled real-world datasets. Synthetic images, however, cannot faithfully reproduce real-world scenarios, such as uneven illumination, irregular layout, occlusion, and degradation, resulting in performance disparities when handling complex real-world images. Recent self-supervised learning techniques, notably contrastive learning and masked image modeling (MIM), narrow this domain gap by exploiting unlabeled real text images. This study first analyzes the original Masked AutoEncoder (MAE) and observes that random patch masking predominantly captures low-level textural features but misses high-level contextual representations. To fully exploit the high-level contextual representations, we introduce random blockwise and span masking in the text recognition task. These strategies can mask the continuous image patches and completely remove some characters, forcing the model to infer relationships among characters within a word. Our Multi-Masking Strategy (MMS) integrates random patch, blockwise, and span masking into the MIM frame, which jointly learns low and high-level textual representations. After fine-tuning with real data, MMS outperforms the state-of-the-art self-supervised methods in various text-related tasks, including text recognition, segmentation, and text-image super-resolution.
- Abstract(参考訳): 既存のテキスト認識手法の多くは、ラベル付き実世界のデータセットが不足しているため、大規模な合成データセットで訓練されている。
しかし、合成画像は、不均一照明、不規則なレイアウト、閉塞、劣化などの現実世界のシナリオを忠実に再現することができず、複雑な実世界の画像を扱う際には性能の相違が生じる。
最近の自己教師付き学習技術、特に対照的な学習とマスク付き画像モデリング(MIM)は、未ラベルの実際のテキスト画像を利用して、この領域のギャップを狭めている。
この研究はまず、Masked AutoEncoder (MAE)を分析し、ランダムパッチマスキングが主に低レベルなテクスチャの特徴を捉えているが、高レベルな文脈表現を見逃すことを観察する。
高レベルの文脈表現を完全に活用するために、テキスト認識タスクにランダムなブロックワイズとスパンマスキングを導入する。
これらの戦略は、連続したイメージパッチを隠蔽し、いくつかの文字を完全に削除し、モデルに単語内の文字間の関係を推論させる。
我々のMMS(Multi-Masking Strategy)は、ランダムパッチ、ブロックワイズ、スパンマスクをMIMフレームに統合し、低レベルのテキスト表現と高レベルのテキスト表現を共同で学習する。
実データで微調整した後、MSMはテキスト認識、セグメンテーション、テキストイメージ超解像など、様々なテキスト関連タスクにおいて最先端の自己監督手法より優れている。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。