論文の概要: Comparative Evaluation of Machine Translation Systems on Images with Text
- arxiv url: http://arxiv.org/abs/2605.29476v1
- Date: Thu, 28 May 2026 07:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.881865
- Title: Comparative Evaluation of Machine Translation Systems on Images with Text
- Title(参考訳): テキストを用いた画像の機械翻訳システムの比較評価
- Authors: Blai Puchol, Sergio Gómez González, Miguel Domingo, Francisco Casacuberta,
- Abstract要約: この研究では、テキスト検出、認識、翻訳を分離するモジュールパイプライン、画像とテキストを共同で処理できるマルチモーダル大言語モデル(MLLM)、翻訳画像を直接生成するエンドツーエンドモデルであるTranslatotron-Vの3つのパラダイムを比較した。
- 参考スコア(独自算出の注目度): 0.7933039558471405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a comparative evaluation of machine translation systems applied to images containing textual information, a task that lies at the intersection of computer vision and natural language processing. The study compares three main paradigms: modular pipelines that separate text detection, recognition, and translation; multi-modal large language models (MLLMs) capable of processing both image and text jointly; and an end-to-end model, Translatotron-V, which directly generates translated images. The modular systems employ state-of-the-art OCR (docTR) combined with multilingual LLMs such as Llama and EuroLLM, while the evaluated MLLMs include different configurations of Gemini 2.5. Experiments were conducted on parallel multilingual datasets covering multiple language pairs, with evaluation based on BLEU, chrF, and TER metrics. The results show that modular pipelines outperform the end-to-end approach, while MLLMs achieve the best overall performance, demonstrating superior flexibility and contextual understanding. These findings underscore the effectiveness of multi-modal reasoning for image-to-text translation and provide a solid foundation for future research on integrating visual understanding and language generation in multilingual settings.
- Abstract(参考訳): 本研究は,コンピュータビジョンと自然言語処理の交わりにあるタスクであるテキスト情報を含む画像に適用された機械翻訳システムの比較評価を行う。
この研究では、テキスト検出、認識、翻訳を分離するモジュールパイプライン、画像とテキストを共同で処理できるマルチモーダル大言語モデル(MLLM)、翻訳画像を直接生成するエンドツーエンドモデルであるTranslatotron-Vの3つのパラダイムを比較した。
モジュラーシステムは最先端のOCR(docTR)とLlamaやEuroLLMといった多言語LLMを組み合わせたもので、評価されたMLLMにはGemini 2.5の異なる構成が含まれている。
BLEU, chrF, TER測定値に基づいて, 複数の言語対をカバーする並列多言語データセットの実験を行った。
その結果、モジュールパイプラインはエンドツーエンドのアプローチよりも優れており、MLLMは最高の全体的なパフォーマンスを達成し、柔軟性とコンテキスト理解が向上していることがわかった。
これらの知見は、画像からテキストへの翻訳におけるマルチモーダル推論の有効性を浮き彫りにし、視覚的理解と言語生成を多言語環境で統合するための基盤となる。
関連論文リスト
- VaaWIT: Visual-Aware Adaptation of Large Language Models for Multilingual Web Image Translation [18.312531006938162]
VaaWITは、多言語Web画像変換にLarge Language Modelsを適用するエンドツーエンドフレームワークである。
Dual-Stream Attention Module (DSAM)は、多言語の意味的特徴と詳細な視覚的表現の間の双方向の相互作用を容易にする。
VAA(Visual-Aware Adapter)は、これらの融合した視覚的手がかりを冷凍LDMバックボーンに動的に注入する。
論文 参考訳(メタデータ) (2026-05-23T17:25:45Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。