論文の概要: IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation
- arxiv url: http://arxiv.org/abs/2603.10495v1
- Date: Wed, 11 Mar 2026 07:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.833999
- Title: IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation
- Title(参考訳): IMTBench: 画像内機械翻訳のための多シナリオクロスモーダル協調評価ベンチマーク
- Authors: Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan,
- Abstract要約: エンドツーエンドのIn-Image Machine Translationは、画像内に埋め込まれたテキストをターゲット言語に変換することを目的としている。
既存のIIMTベンチマークは、ほとんど合成されており、現実世界の複雑さを反映していない。
IMTBenchは,4つの実践シナリオと9つの言語を対象とした2500の画像翻訳サンプルのベンチマークである。
- 参考スコア(独自算出の注目度): 19.168097777455177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end In-Image Machine Translation (IIMT) aims to convert text embedded within an image into a target language while preserving the original visual context, layout, and rendering style. However, existing IIMT benchmarks are largely synthetic and thus fail to reflect real-world complexity, while current evaluation protocols focus on single-modality metrics and overlook cross-modal faithfulness between rendered text and model outputs. To address these shortcomings, we present In-image Machine Translation Benchmark (IMTBench), a new benchmark of 2,500 image translation samples covering four practical scenarios and nine languages. IMTBench supports multi-aspect evaluation, including translation quality, background preservation, overall image quality, and a cross-modal alignment score that measures consistency between the translated text produced by the model and the text rendered in the translated image. We benchmark strong commercial cascade systems, and both closed- and open-source unified multi-modal models, and observe large performance gaps across scenarios and languages, especially on natural scenes and resource-limited languages, highlighting substantial headroom for end-to-end image text translation. We hope IMTBench establishes a standardized benchmark to accelerate progress in this emerging task.
- Abstract(参考訳): エンド・ツー・エンドのIn-Image Machine Translation (IIMT) は、元の視覚的コンテキスト、レイアウト、レンダリングスタイルを保ちながら、画像内に埋め込まれたテキストをターゲット言語に変換することを目的としている。
しかしながら、既存のIIMTベンチマークは大部分が合成されており、現実の複雑さを反映することができないが、現在の評価プロトコルは単一のモダリティのメトリクスに焦点をあて、レンダリングされたテキストとモデル出力間の相互忠実さを見落としている。
これらの欠点に対処するため、我々は4つの実践シナリオと9つの言語をカバーする2500の画像翻訳サンプルの新しいベンチマークであるIn-image Machine Translation Benchmark (IMTBench)を提案する。
IMTBenchは、翻訳品質、背景保存、全体的な画像品質、モデルによって生成された翻訳テキストと翻訳画像で描画されたテキストとの整合性を測定するクロスモーダルアライメントスコアを含むマルチアスペクト評価をサポートする。
我々は、強力な商用カスケードシステムと、クローズドおよびオープンソースで統合されたマルチモーダルモデルの両方をベンチマークし、特に自然シーンやリソース制限言語において、シナリオと言語間の大きなパフォーマンスギャップを観察し、エンド・ツー・エンドの画像テキスト翻訳の実質的なヘッドルームを強調した。
IMTBenchがこの新たな課題の進展を加速するための標準化されたベンチマークを確立することを願っている。
関連論文リスト
- PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models [32.38746546500033]
Text Image Machine Translation (TIMT) は、画像内に埋め込まれたテキストを別の言語に翻訳することを目的としている。
従来のTIMTを位置認識型TIMT(PATIMT)に拡張し,細粒度・レイアウト保存型翻訳を支援する。
PATIMTベンチマーク (PATIMTBench) を構築する。
具体的には、シナリオに基づいて適切なOCRツールを適応的に選択するAdaptive Image OCR Refinement Pipelineを紹介する。
論文 参考訳(メタデータ) (2025-09-14T08:33:23Z) - PRIM: Towards Practical In-Image Multilingual Machine Translation [48.357528732061105]
In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。
本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
論文 参考訳(メタデータ) (2025-09-05T14:38:07Z) - Ensuring Consistency for In-Image Translation [47.1986912570945]
画像内の機械翻訳タスクでは、画像内に埋め込まれたテキストを翻訳し、翻訳結果を画像形式で表示する。
本稿では,このタスクにおいて,変換一貫性と画像生成一貫性という,2種類の一貫性の維持の必要性を提案する。
本稿では,HCIITと呼ばれる新しい2段階のフレームワークを紹介し,第1段階の多言語多言語大言語モデルを用いたテキスト画像翻訳と第2段階の拡散モデルによる画像バックフィルについて述べる。
論文 参考訳(メタデータ) (2024-12-24T03:50:03Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts [107.32683485639654]
テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
論文 参考訳(メタデータ) (2024-03-17T05:05:11Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。