論文の概要: Masked Next-Scale Prediction for Self-supervised Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2605.14885v1
- Date: Thu, 14 May 2026 14:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.873698
- Title: Masked Next-Scale Prediction for Self-supervised Scene Text Recognition
- Title(参考訳): 自己教師型シーン音声認識のためのマスク次世代予測
- Authors: Zhuohao Chen, Zeng Li, Yifei Zhang, Chang Liu, Yu Zhou,
- Abstract要約: シーンテキスト認識は、粗いレイアウトからきめ細かい文字ストロークへと進化する視覚構造をモデル化する必要がある。
Masked Image Modeling (MIM)のような近年の自己教師型アプローチは、大規模な未ラベルデータを活用することで、この依存関係を緩和している。
我々は,MNSP(Masked Next-Scale Prediction)を紹介した。
- 参考スコア(独自算出の注目度): 11.805372246648957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition requires modeling visual structures that evolve from coarse layouts to fine-grained character strokes. Training such models relies on large amounts of annotated data. Recent self-supervised approaches, such as Masked Image Modeling (MIM), alleviate this dependency by leveraging large-scale unlabeled data. Yet most existing MIM methods operate at a single spatial scale and fail to capture the hierarchical nature of scene text. In this work, we introduce Masked Next-Scale Prediction (MNSP), a unified self-supervised framework designed to explicitly model cross-scale structural evolution. The framework incorporates Next-Scale Prediction (NSP), which learns hierarchical representations by predicting higher-resolution features from lower-resolution contexts. Naive scale prediction, however, tends to produce spatially diffuse attention, directing the model toward background regions rather than textual structures. MNSP resolves this limitation by jointly learning cross-scale prediction and masked image reconstruction. NSP captures global layout priors across resolutions, while masked reconstruction imposes strong local constraints that guide attention toward informative text regions. A Multi-scale Linguistic Alignment module further maintains semantic consistency across different resolutions. Extensive experiments demonstrate that MNSP achieves state-of-the-art performance, reaching 86.2\% average accuracy on the challenging Union14M benchmark and 96.7\% across six standard datasets. Additional analyses show that our method improves robustness under extreme scale and layout variations. Code is available at https://github.com/CzhczhcHczh/MNSP
- Abstract(参考訳): シーンテキスト認識は、粗いレイアウトからきめ細かい文字ストロークへと進化する視覚構造をモデル化する必要がある。
このようなモデルのトレーニングは、大量の注釈付きデータに依存する。
Masked Image Modeling (MIM)のような近年の自己教師型アプローチは、大規模な未ラベルデータを活用することで、この依存関係を緩和している。
しかし、既存のMIM手法の多くは単一の空間スケールで動作しており、シーンテキストの階層的な性質を捉えていない。
本研究では,MNSP(Masked Next-Scale Prediction)を提案する。
このフレームワークにはNext-Scale Prediction (NSP)が組み込まれており、低解像度のコンテキストから高解像度の特徴を予測することによって階層的な表現を学ぶ。
しかし,Naive Scaleの予測は空間的に拡散した注意を生じさせる傾向があり,テキスト構造よりも背景領域にモデルを向ける傾向にある。
MNSPは、クロススケールな予測とマスクされた画像再構成を共同で学習することで、この制限を解消する。
NSPは、解像度を越えてグローバルなレイアウトの先行をキャプチャし、マスクされた再構築は、情報的なテキスト領域に注意を向ける強い局所的な制約を課している。
Multi-scale Linguistic Alignmentモジュールは、さまざまな解像度のセマンティック一貫性をさらに維持する。
大規模な実験により、MNSPは最先端のパフォーマンスを達成し、挑戦的なUnion14Mベンチマークでは86.2\%、標準データセットでは96.7\%に達した。
余分な解析により,過度なスケールとレイアウトの変動によるロバスト性の向上が示された。
コードはhttps://github.com/CzhczhcHczh/MNSPで入手できる。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - SPAN: Unlocking Pyramid Representations for Gigapixel Histopathological Images [8.026588319629528]
全体スライド画像(WSI)は、ギガピクセルスケールの解像度と、スパースで不規則に分布する情報領域により、基本的な計算課題を提示する。
本研究では,空間的関係を正確に保存する疎結合型計算フレームワークを提案する。
SPAN(Sparse Pyramid Attention Networks)を開発した。
論文 参考訳(メタデータ) (2024-06-13T17:14:30Z) - SA-MixNet: Structure-aware Mixup and Invariance Learning for
Scribble-supervised Road Extraction in Remote Sensing Images [85.52629779976137]
複雑化の進んだ画像シーンを作成するために,ある画像から別の画像へ道路領域を貼り付ける構造を意識したミックスアップ方式を提案する。
道路構造を保ちながら接続性を高めるために,識別器に基づく正規化が設計されている。
われわれのフレームワークは、DeepGlobe、Wuhan、およびマサチューセッツのデータセット上で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-03T02:56:43Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。