論文の概要: DODO: Discrete OCR Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.16872v1
- Date: Wed, 18 Feb 2026 20:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.401855
- Title: DODO: Discrete OCR Diffusion Models
- Title(参考訳): DODO:OCR拡散モデルの離散化
- Authors: Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman,
- Abstract要約: 離散拡散ブロックを利用した最初の VLM であるDODO を導入し,OCR の高速化の可能性を明らかにする。
提案手法は, 自己回帰ベースラインに比べて最大3倍高速な推論を実現するとともに, 最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 15.352694377412229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) is a fundamental task for digitizing information, serving as a critical bridge between visual data and textual understanding. While modern Vision-Language Models (VLM) have achieved high accuracy in this domain, they predominantly rely on autoregressive decoding, which becomes computationally expensive and slow for long documents as it requires a sequential forward pass for every generated token. We identify a key opportunity to overcome this bottleneck: unlike open-ended generation, OCR is a highly deterministic task where the visual input strictly dictates a unique output sequence, theoretically enabling efficient, parallel decoding via diffusion models. However, we show that existing masked diffusion models fail to harness this potential; those introduce structural instabilities that are benign in flexible tasks, like captioning, but catastrophic for the rigid, exact-match requirements of OCR. To bridge this gap, we introduce DODO, the first VLM to utilize block discrete diffusion and unlock its speedup potential for OCR. By decomposing generation into blocks, DODO mitigates the synchronization errors of global diffusion. Empirically, our method achieves near state-of-the-art accuracy while enabling up to 3x faster inference compared to autoregressive baselines.
- Abstract(参考訳): 光文字認識(OCR)は情報をデジタル化する基本的なタスクであり、視覚データとテキスト理解の間に重要な橋渡しとなる。
現代のVision-Language Models (VLM) はこの領域で高い精度を達成しているが、それらは主に自己回帰復号化に依存している。
オープンエンド生成とは異なり、OCRは、視覚入力が独自の出力シーケンスを厳密に規定し、理論上は拡散モデルによる並列デコードを可能にする、非常に決定論的タスクである。
しかし, 既存のマスク拡散モデルでは, キャプションのような柔軟な作業において, 構造的不安定性を導入するが, OCRの厳密で正確な整合性の要求は破滅的である。
このギャップを埋めるために、ブロック離散拡散を利用した最初のVLMであるDODOを導入し、OCRの高速化ポテンシャルを解放する。
生成をブロックに分解することで、DODOはグローバル拡散の同期エラーを軽減する。
提案手法は, 自己回帰ベースラインに比べて最大3倍高速な推論を実現するとともに, 最先端の精度を実現する。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models [0.0]
DLLM(Large Language Models)は完全な並列トークン復号を可能にするが、推論時には実用的でないことが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
本稿では,軽量補助モデルから拡散初期化に事前条件付き事前条件を注入する学習自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
論文 参考訳(メタデータ) (2025-12-22T03:45:04Z) - From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models [19.97248408121574]
Diffusion Language Models (DLMs) は並列デコードにより高速な推論速度で同等の精度を提供する。
高信頼トークンは無視可能な情報を持ち、それらに厳密に依存することで、各デコードラウンドにおける効果的な進捗を制限する。
本研究では,情報スループットと復号効率を最大化する学習自由復号法であるExplore-Then-Exploit (ETE)を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:38:37Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。