Fugu-MT 論文翻訳(概要): MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation

論文の概要: MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation

arxiv url: http://arxiv.org/abs/2603.23896v1
Date: Wed, 25 Mar 2026 03:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.112969
Title: MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation
Title（参考訳）: MMTIT-Bench:認知-知覚-推論誘導型テキスト画像機械翻訳による多言語・多言語ベンチマーク
Authors: Gengluo Li, Chengquan Zhang, Yupu Liang, Huawen Shen, Yaping Zhang, Pengyuan Lyu, Weinong Wang, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou,
Abstract要約: MMTIT-Benchは、14の非英語と非中国語にまたがる1,400の画像を持つ、人間による検証された多言語・マルチシナリオのベンチマークである。ベンチマーク以外にも、推論指向のデータ設計が翻訳をどのように改善するかについて研究する。本稿では,シーン認識,テキスト認識,翻訳推論を統一的推論プロセスに統合したデータパラダイムであるCPR-Transを提案する。
参考スコア（独自算出の注目度）: 29.093072408848467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end text-image machine translation (TIMT), which directly translates textual content in images across languages, is crucial for real-world multilingual scene understanding. Despite advances in vision-language large models (VLLMs), robustness across diverse visual scenes and low-resource languages remains underexplored due to limited evaluation resources. We present MMTIT-Bench, a human-verified multilingual and multi-scenario benchmark with 1,400 images spanning fourteen non-English and non-Chinese languages and diverse settings such as documents, scenes, and web images, enabling rigorous assessment of end-to-end TIMT. Beyond benchmarking, we study how reasoning-oriented data design improves translation. Although recent VLLMs have begun to incorporate long Chain-of-Thought (CoT) reasoning, effective thinking paradigms for TIMT are still immature: existing designs either cascade parsing and translation in a sequential manner or focus on language-only reasoning, overlooking the visual cognition central to VLLMs. We propose Cognition-Perception-Reasoning for Translation (CPR-Trans), a data paradigm that integrates scene cognition, text perception, and translation reasoning within a unified reasoning process. Using a VLLM-driven data generation pipeline, CPR-Trans provides structured, interpretable supervision that aligns perception with reasoning. Experiments on 3B and 7B models show consistent gains in accuracy and interpretability. We will release MMTIT-Bench to promote the multilingual and multi-scenario TIMT research upon acceptance.
Abstract（参考訳）: 言語間の画像のテキストコンテンツを直接翻訳するTIMT(End-to-end Text-image Machine Translation)は,実世界の多言語シーン理解に不可欠である。視覚言語大モデル(VLLM)の進歩にもかかわらず、様々な視覚シーンや低リソース言語にまたがるロバスト性は、限られた評価資源のために未探索のままである。 MMTIT-Benchは,14の非英語と非中国語にまたがる1,400の画像と,文書,シーン,Web画像などの多様な設定を対象とし,エンドツーエンドのTIMTの厳密な評価を可能にする。ベンチマーク以外にも、推論指向のデータ設計が翻訳をどのように改善するかについて研究する。最近のVLLMは長いチェーン・オブ・ソート(CoT)推論を取り入れ始めているが、TIMTの効果的な思考パラダイムはまだ未熟である。本稿では,シーン認識,テキスト認識,翻訳推論を統一的推論プロセスに統合したデータパラダイムであるCPR-Transを提案する。 VLLM駆動のデータ生成パイプラインを使用することで、CPR-Transは、認識と推論を整合させる構造化された解釈可能な監視を提供する。 3Bモデルと7Bモデルの実験では、精度と解釈可能性が一貫した向上を示した。我々は、MMTIT-Benchをリリースし、マルチ言語およびマルチシナリオのTIMT研究を促進する。

関連論文リスト

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation [19.168097777455177]
エンドツーエンドのIn-Image Machine Translationは、画像内に埋め込まれたテキストをターゲット言語に変換することを目的としている。既存のIIMTベンチマークは、ほとんど合成されており、現実世界の複雑さを反映していない。 IMTBenchは,4つの実践シナリオと9つの言語を対象とした2500の画像翻訳サンプルのベンチマークである。
論文参考訳（メタデータ） (2026-03-11T07:42:42Z)
A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文参考訳（メタデータ） (2025-03-06T16:31:34Z)
Exploring Vision Language Models for Multimodal and Multilingual Stance Detection [9.079302402271491]
ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
論文参考訳（メタデータ） (2025-01-29T13:39:53Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-20T18:17:20Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文参考訳（メタデータ） (2020-09-15T18:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。