論文の概要: Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency
- arxiv url: http://arxiv.org/abs/2507.08309v1
- Date: Fri, 11 Jul 2025 05:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.24209
- Title: Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency
- Title(参考訳): 同期自己レビューによるMLLMの文書画像機械翻訳の改善
- Authors: Yupu Liang, Yaping Zhang, Zhiyang Zhang, Zhiyuan Chen, Yang Zhao, Lu Xiang, Chengqing Zong, Yu Zhou,
- Abstract要約: MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
- 参考スコア(独自算出の注目度): 31.095908827004695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance in document image tasks, especially Optical Character Recognition (OCR). However, they struggle with Document Image Machine Translation (DIMT), which requires handling both cross-modal and cross-lingual challenges. Previous efforts to enhance DIMT capability through Supervised Fine-Tuning (SFT) on the DIMT dataset often result in the forgetting of the model's existing monolingual abilities, such as OCR. To address these challenges, we introduce a novel fine-tuning paradigm, named Synchronously Self-Reviewing (SSR) its OCR proficiency, inspired by the concept "Bilingual Cognitive Advantage". Specifically, SSR prompts the model to generate OCR text before producing translation text, which allows the model to leverage its strong monolingual OCR ability while learning to translate text across languages. Comprehensive experiments demonstrate the proposed SSR learning helps mitigate catastrophic forgetting, improving the generalization ability of MLLMs on both OCR and DIMT tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、特に光学文字認識(OCR)において、文書画像のタスクにおいて高い性能を示す。
しかし、彼らは文書画像機械翻訳(DIMT)に苦しむ。
DIMTデータセット上でのSFT(Supervised Fine-Tuning)によるDIMT機能向上への取り組みは、OCRのようなモデルの既存のモノリンガル能力を忘れることがしばしばある。
これらの課題に対処するため,SSR(Synchronously Self-Reviewing)と呼ばれる新しい微調整パラダイムを導入した。
具体的には、SSRは、翻訳テキストを生成する前にOCRテキストを生成するようモデルに促す。
総合的な実験により、提案されたSSR学習は破滅的な忘れを軽減し、OCRタスクとDIMTタスクの両方におけるMLLMの一般化能力を向上させる。
関連論文リスト
- Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues? [73.35232225256968]
Reasoning-OCRは、リッチビジュアルテキストから抽出できるキューに基づいて複雑な推論問題を解決するためにLMMに挑戦する。
我々の評価は、異なる理由付けの課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与えます。
論文 参考訳(メタデータ) (2025-05-19T06:45:18Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。
我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文 参考訳(メタデータ) (2025-01-26T15:20:39Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。