論文の概要: Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation
- arxiv url: http://arxiv.org/abs/2507.07572v1
- Date: Thu, 10 Jul 2025 09:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.336098
- Title: Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation
- Title(参考訳): 文書画像機械翻訳のための多モーダル大言語モデルを用いたシングル・トゥ・ミックスモダリティアライメント
- Authors: Yupu Liang, Yaping Zhang, Zhiyang Zhang, Yang Zhao, Lu Xiang, Chengqing Zong, Yu Zhou,
- Abstract要約: 文書画像機械翻訳(DIMT)は、文書画像内のテキストを翻訳することを目的としている。
MLLM(Multimodal Large Language Models)を利用したM4Docを導入した。
M4Docは、大規模なドキュメントイメージデータセットで事前トレーニングされたMLLMのマルチモーダル表現と、イメージのみのエンコーダを一致させる。
- 参考スコア(独自算出の注目度): 31.080061818510003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Image Machine Translation (DIMT) aims to translate text within document images, facing generalization challenges due to limited training data and the complex interplay between visual and textual information. To address these challenges, we introduce M4Doc, a novel single-to-mix modality alignment framework leveraging Multimodal Large Language Models (MLLMs). M4Doc aligns an image-only encoder with the multimodal representations of an MLLM, pre-trained on large-scale document image datasets. This alignment enables a lightweight DIMT model to learn crucial visual-textual correlations during training. During inference, M4Doc bypasses the MLLM, maintaining computational efficiency while benefiting from its multimodal knowledge. Comprehensive experiments demonstrate substantial improvements in translation quality, especially in cross-domain generalization and challenging document image scenarios.
- Abstract(参考訳): 文書画像機械翻訳(DIMT)は、限られた訓練データと視覚情報とテキスト情報の複雑な相互作用により、文書画像内のテキストを翻訳することを目的としている。
これらの課題に対処するために,M4Docを紹介した。MLLM(Multimodal Large Language Models)を利用した,新しい1-mixモダリティアライメントフレームワークである。
M4Docは、大規模なドキュメントイメージデータセットで事前トレーニングされたMLLMのマルチモーダル表現と、イメージのみのエンコーダを一致させる。
このアライメントにより、軽量なDIMTモデルは、トレーニング中に重要な視覚的・テキスト的相関を学習することができる。
推論中、M4DocはMLLMをバイパスし、マルチモーダル知識の恩恵を受けながら計算効率を維持する。
総合的な実験は、翻訳品質、特にクロスドメインの一般化と挑戦的な文書画像シナリオにおいて、大幅に改善されている。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。
我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。
実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文 参考訳(メタデータ) (2024-12-17T07:41:23Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。