論文の概要: MDiff4STR: Mask Diffusion Model for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2512.01422v1
- Date: Mon, 01 Dec 2025 08:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.768785
- Title: MDiff4STR: Mask Diffusion Model for Scene Text Recognition
- Title(参考訳): MDiff4STR:シーンテキスト認識のためのマスク拡散モデル
- Authors: Yongkun Du, Miaomiao Zhao, Songlin Fan, Zhineng Chen, Caiyan Jia, Yu-Gang Jiang,
- Abstract要約: Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
- 参考スコア(独自算出の注目度): 59.79818820650126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mask Diffusion Models (MDMs) have recently emerged as a promising alternative to auto-regressive models (ARMs) for vision-language tasks, owing to their flexible balance of efficiency and accuracy. In this paper, for the first time, we introduce MDMs into the Scene Text Recognition (STR) task. We show that vanilla MDM lags behind ARMs in terms of accuracy, although it improves recognition efficiency. To bridge this gap, we propose MDiff4STR, a Mask Diffusion model enhanced with two key improvement strategies tailored for STR. Specifically, we identify two key challenges in applying MDMs to STR: noising gap between training and inference, and overconfident predictions during inference. Both significantly hinder the performance of MDMs. To mitigate the first issue, we develop six noising strategies that better align training with inference behavior. For the second, we propose a token-replacement noise mechanism that provides a non-mask noise type, encouraging the model to reconsider and revise overly confident but incorrect predictions. We conduct extensive evaluations of MDiff4STR on both standard and challenging STR benchmarks, covering diverse scenarios including irregular, artistic, occluded, and Chinese text, as well as whether the use of pretraining. Across these settings, MDiff4STR consistently outperforms popular STR models, surpassing state-of-the-art ARMs in accuracy, while maintaining fast inference with only three denoising steps. Code: https://github.com/Topdu/OpenOCR.
- Abstract(参考訳): Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル(ARM)の代替として、効率と精度の柔軟なバランスのために最近登場した。
本稿では,まず,シーンテキスト認識(STR)タスクにMDMを導入する。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
このギャップを埋めるために, STR に適した2つの重要な改善戦略を組み込んだ Mask Diffusion モデル MDiff4STR を提案する。
具体的には、STRにMDMを適用する際の重要な課題として、トレーニングと推論のギャップを埋めることと、推論中の自信過剰な予測の2つを挙げる。
どちらもMDMの性能を著しく損なう。
最初の問題を緩和するため、トレーニングと推論行動の整合性を向上する6つのノイズ発生戦略を開発した。
第二に,非マスクノイズ型を提供するトークン置換ノイズ機構を提案し,過度に自信があるが誤った予測をモデルに再検討し,修正するよう促す。
MDiff4STRを標準および挑戦的なSTRベンチマークの両方で広範囲に評価し、不規則、芸術的、隠蔽された、中国語のテキストを含む様々なシナリオと、事前学習の使用の有無をカバーした。
これらの設定全体にわたって、MDiff4STRは人気のあるSTRモデルより一貫して優れており、最先端のARMをはるかに上回り、高速な推論を3ステップで維持している。
コード:https://github.com/Topdu/OpenOCR。
関連論文リスト
- Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models [8.964977926797173]
マスク付き拡散モデル(MDMs)は自己回帰モデル(ARMs)に代わる有望な代替品である
高い分散は、よりノイズの多い勾配推定と不安定な最適化をもたらすため、同様に強い事前訓練されたMDMやARMもタスク固有の訓練後に分岐する。
A)マスキングパターンノイズ,(B)マスキングレートノイズ,(C)データノイズの3つの源にMDMトレーニングのばらつきを初めて分解した。
論文 参考訳(メタデータ) (2025-11-22T19:04:47Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial
Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。
本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。
本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T12:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。