論文の概要: SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read
- arxiv url: http://arxiv.org/abs/2602.22426v1
- Date: Wed, 25 Feb 2026 21:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.415454
- Title: SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read
- Title(参考訳): SimpleOCR: 可視化された質問をレンダリングしてMLLMの読み方を教える
- Authors: Yibo Peng, Peng Xia, Ding Zhong, Kaide Zeng, Siwei Han, Yiyang Zhou, Jiaqi Liu, Ruiyi Zhang, Huaxiu Yao,
- Abstract要約: テキストクエリを画像に直接描画するVisualized-Question (VQ) 設定を導入する。
強力なOCR能力を持つにもかかわらず、モデルはVQ設定で最大12.7%の性能低下に悩まされる。
学習プロセスに構造的制約を課すプラグアンドプレイトレーニング戦略であるSimpleOCRを提案する。
- 参考スコア(独自算出の注目度): 43.28273039987167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid advancements in Multimodal Large Language Models (MLLMs), a critical question regarding their visual grounding mechanism remains unanswered: do these models genuinely ``read'' text embedded in images, or do they merely rely on parametric shortcuts in the text prompt? In this work, we diagnose this issue by introducing the Visualized-Question (VQ) setting, where text queries are rendered directly onto images to structurally mandate visual engagement. Our diagnostic experiments on Qwen2.5-VL reveal a startling capability-utilization gap: despite possessing strong OCR capabilities, models suffer a performance degradation of up to 12.7% in the VQ setting, exposing a deep-seated ``modality laziness.'' To bridge this gap, we propose SimpleOCR, a plug-and-play training strategy that imposes a structural constraint on the learning process. By transforming training samples into the VQ format with randomized styles, SimpleOCR effectively invalidates text-based shortcuts, compelling the model to activate and optimize its visual text extraction pathways. Empirically, SimpleOCR yields robust gains without architectural modifications. On four representative OOD benchmarks, it surpasses the base model by 5.4% and GRPO based on original images by 2.7%, while exhibiting extreme data efficiency, achieving superior performance with 30x fewer samples (8.5K) than recent RL-based methods. Furthermore, its plug-and-play nature allows seamless integration with advanced RL strategies like NoisyRollout to yield complementary improvements. Code is available at https://github.com/aiming-lab/SimpleOCR.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩にもかかわらず、それらの視覚的基盤機構に関する重要な疑問は未解決のままである。
本研究では,視覚的エンゲージメントを構造化するために,画像に直接テキストクエリを描画する視覚的クエスト(VQ)設定を導入することで,この問題を診断する。
我々のQwen2.5-VLの診断実験では,強いOCR能力を有するにもかかわらず,VQ設定で最大12.7%の性能低下を経験し,深い「モダリティの怠慢」が露呈した。
このギャップを埋めるために、私たちは、学習プロセスに構造的制約を課すプラグアンドプレイのトレーニング戦略であるSimpleOCRを提案します。
トレーニングサンプルをランダム化されたスタイルでVQフォーマットに変換することで、SimpleOCRはテキストベースのショートカットを効果的に無効にし、モデルをアクティベートし、そのビジュアルテキスト抽出経路を最適化する。
経験的に、SimpleOCRはアーキテクチャの変更なしに堅牢なゲインを得る。
4つの代表的なOODベンチマークでは、原画像に基づいてベースモデルを5.4%、GRPOを2.7%上回るが、極端なデータ効率を示し、最近のRLベースの手法よりも30倍少ないサンプル(8.5K)で優れたパフォーマンスを実現している。
さらに、プラグインとプレイの性質により、NoisyRolloutのような先進的なRL戦略とシームレスに統合することで、補完的な改善を実現している。
コードはhttps://github.com/aiming-lab/SimpleOCRで入手できる。
関連論文リスト
- Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models [2.1942030377331245]
視覚言語モデル(VLM)は画像からテキストを読み取ることができるが、この光学文字認識(OCR)情報は言語処理ストリームにどこから入ってくるのか?
因果介入を用いた3つのアーキテクチャファミリ間のOCRルーティング機構について検討する。
論文 参考訳(メタデータ) (2026-02-26T12:06:02Z) - LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。
大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。
私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文 参考訳(メタデータ) (2026-01-20T18:58:32Z) - Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model [9.557159109747372]
大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。
DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
論文 参考訳(メタデータ) (2025-08-18T03:28:57Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。