論文の概要: Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.16409v1
- Date: Wed, 13 May 2026 14:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.301993
- Title: Multilingual OCR-Aware Fine-Tuning and Prompt-Guided Chain-of-Thought Reasoning for Multimodal Large Language Models
- Title(参考訳): 多言語大言語モデルのための多言語OCR対応ファインチューニングとPrompt-Guided Chain-of-Thought Reasoning
- Authors: Qinwu Xu, Xin Liu, Yifan Jiang, Haoyu Ren,
- Abstract要約: 光文字認識(OCR)と多言語テキスト理解は、マルチモーダル大言語モデル(MLLM)の主要な障害モードのままである
我々は,大規模合成OCR-to-translationデータ生成,OCR-awareによる教師付き微調整,構造化された視覚連鎖とを組み合わせた,OCR対応多言語多言語学習フレームワークを提案する。
LLaMAベースのマルチモーダルアーキテクチャを用いて、劣化した視覚条件下でのOCR完全性、多言語翻訳精度、ロバスト性を大幅に改善する。
- 参考スコア(独自算出の注目度): 7.833222732846266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optical character recognition (OCR) and multilingual text understanding remain major failure modes of multimodal large language models (MLLMs), particularly in real-world images containing cluttered layouts, small fonts, blur, occlusion, and complex typography. We present an OCR-aware multilingual multimodal training framework that combines (i) large-scale synthetic OCR-to-translation data generation, (ii) OCR-aware supervised fine-tuning (SFT) with LoRA adaptation, and (iii) structured visual chain-of-thought (CoT) prompting for reasoning under uncertain visual conditions. Using a LLaMA-based multimodal architecture, the proposed framework substantially improves OCR completeness, multilingual translation accuracy, and robustness under degraded visual conditions. Experimental results on multilingual receipts, menus, posters, signs, handwritten text, and document images demonstrate significantly improved visual-text grounding compared with the baseline model. In particular, the proposed OCR-aware post-training framework improves extraction of small, blurred, spatially scattered, and partially occluded text while reducing reliance on language priors under uncertain OCR conditions. Qualitative comparisons with frontier multimodal systems, including GPT-5-class and Gemini-family models, further suggest improved OCR grounding and reduced hallucination under noisy and visually ambiguous OCR scenarios. Overall, the results indicate that data-centric OCR-aware multimodal post-training provides an effective and scalable direction for improving multilingual OCR and OCR-based visual question answering systems.
- Abstract(参考訳): 光文字認識(OCR)と多言語テキスト理解(Multilingual text understanding)は、特に乱雑なレイアウト、小さなフォント、ぼやけ、閉塞、複雑なタイポグラフィを含む実世界の画像において、MLLM(Multimodal large language model)の主要な障害モードのままである。
我々はOCR対応多言語マルチモーダルトレーニングフレームワークを提案する。
(i)大規模合成OCR-to-translationデータ生成
(II) LoRA適応によるOCR対応微調整(SFT)
三 構造的視覚連鎖(CoT)は、不確実な視覚条件下での推論を促す。
LLaMAベースのマルチモーダルアーキテクチャを用いて、劣化した視覚条件下でのOCR完全性、多言語翻訳精度、ロバスト性を大幅に改善する。
多言語レシート、メニュー、ポスター、サイン、手書きテキスト、文書画像による実験結果は、ベースラインモデルと比較して、視覚テキストのグラウンドニングが著しく改善されたことを示している。
特に、提案するOCR学習後フレームワークは、不確実なOCR条件下での言語事前依存性を低減しつつ、小さく、ぼやけた、空間的に散らばった、あるいは部分的に隠蔽されたテキストの抽出を改善する。
GPT-5クラスやジェミニファミリーモデルを含むフロンティアのマルチモーダルシステムとの質的な比較は、ノイズや視覚的曖昧なOCRシナリオ下でのOCR接地と幻覚の低減をさらに改善することを示唆している。
その結果、データ中心のOCR対応マルチモーダルポストトレーニングは、多言語OCRとOCRに基づく視覚的質問応答システムを改善する上で、効果的でスケーラブルな方向を提供することが示された。
関連論文リスト
- DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution [52.962204748003394]
Scene Text Image Super-Resolutionは、低解像度のテキスト画像における高解像度の詳細を復元することを目的としている。
しかし、既存の手法は、しばしば外部光学文字認識(OCR)モデルに依存している。
両問題に対処する統合エンドツーエンドフレームワークであるDualTSRを紹介する。
論文 参考訳(メタデータ) (2026-03-15T03:50:47Z) - Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文 参考訳(メタデータ) (2025-07-11T05:02:06Z) - TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-05-29T05:40:35Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。