論文の概要: MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19714v1
- Date: Mon, 26 May 2025 09:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.305381
- Title: MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning
- Title(参考訳): MT$^{3}$:マルチタスク強化学習によるMLLMベースのテキスト画像機械翻訳のスケーリング
- Authors: Zhaopeng Feng, Yupu Liang, Shaosheng Cao, Jiayuan Su, Jiahan Ren, Zhe Xu, Yao Hu, Wenxuan Huang, Jian Wu, Zuozhu Liu,
- Abstract要約: エンドツーエンド TIMT に Multi-Task RL をMLLM に適用する最初のフレームワークである MT$3$ を紹介する。
TIMTの複雑さにルールベースのRL戦略を適応させる、新しいマルチミックス報酬機構を用いて訓練されている。
我々のモデルは最新のドメイン内MIT-10Mベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 22.27715186895943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Image Machine Translation (TIMT)-the task of translating textual content embedded in images-is critical for applications in accessibility, cross-lingual information access, and real-world document understanding. However, TIMT remains a complex challenge due to the need for accurate optical character recognition (OCR), robust visual-text reasoning, and high-quality translation, often requiring cascading multi-stage pipelines. Recent advances in large-scale Reinforcement Learning (RL) have improved reasoning in Large Language Models (LLMs) and Multimodal LLMs (MLLMs), but their application to end-to-end TIMT is still underexplored. To bridge this gap, we introduce MT$^{3}$, the first framework to apply Multi-Task RL to MLLMs for end-to-end TIMT. MT$^{3}$ adopts a multi-task optimization paradigm targeting three key sub-skills: text recognition, context-aware reasoning, and translation. It is trained using a novel multi-mixed reward mechanism that adapts rule-based RL strategies to TIMT's intricacies, offering fine-grained, non-binary feedback across tasks. Furthermore, to facilitate the evaluation of TIMT in authentic cross-cultural and real-world social media contexts, we introduced XHSPost, the first social media TIMT benchmark. Our MT$^{3}$-7B-Zero achieves state-of-the-art results on the latest in-domain MIT-10M benchmark, outperforming strong baselines such as Qwen2.5-VL-72B and InternVL2.5-78B by notable margins across multiple metrics. Additionally, the model shows strong generalization to out-of-distribution language pairs and datasets. In-depth analyses reveal how multi-task synergy, reinforcement learning initialization, curriculum design, and reward formulation contribute to advancing MLLM-driven TIMT.
- Abstract(参考訳): Text Image Machine Translation (TIMT) - 画像に埋め込まれたテキストコンテンツを翻訳するタスク。
しかし、TIMTは、正確な光学文字認識(OCR)、堅牢な視覚テキスト推論、高品質な翻訳が必要であり、しばしばカスケードマルチステージパイプラインを必要とするため、複雑な課題である。
大規模強化学習(RL)の最近の進歩は,大規模言語モデル (LLMs) やマルチモーダルLLM (MLLMs) の推論を改善している。
このギャップを埋めるために、MT$^{3}$を導入し、エンドツーエンドのTIMTにMulti-Task RLをMLLMに適用する最初のフレームワークを紹介します。
MT$^{3}$は、テキスト認識、コンテキスト認識推論、翻訳という3つの重要なサブスキルをターゲットにしたマルチタスク最適化パラダイムを採用する。
ルールベースのRL戦略をTIMTの複雑さに適応し、タスク全体にわたってきめ細かな非バイナリフィードバックを提供する、新しいマルチミックス報酬メカニズムを使用してトレーニングされている。
さらに,実世界と異文化のソーシャル・メディア・コンテキストにおけるTIMTの評価を容易にするため,最初のソーシャルメディア・TIMTベンチマークであるXHSPostを紹介した。
我々のMT$^{3}$-7B-Zeroは、最新のドメイン内MIT-10Mベンチマークで最先端の結果を達成し、Qwen2.5-VL-72BやInternVL2.5-78Bといった強力なベースラインを、複数の指標で比較した。
さらに、このモデルは、アウト・オブ・ディストリビューション言語ペアとデータセットへの強力な一般化を示している。
In-depth Analysis revealed how how multi-task synergy, reinforcement learning initialization, curical design, and reward formulation to progress MLLM-driven TIMT。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。