論文の概要: Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation
- arxiv url: http://arxiv.org/abs/2602.21956v1
- Date: Wed, 25 Feb 2026 14:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.86627
- Title: Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation
- Title(参考訳): 高分解能テキストリッチ画像翻訳におけるMLLMのグローバルローカルデュアル認識
- Authors: Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei,
- Abstract要約: Text Image Machine Translationは、ソース言語で画像に埋め込まれたテキストをターゲット言語に変換することを目的としている。
既存のTIMT法は、乱雑なレイアウト、多様なフォント、非テキストの注意散らしなどにより、高解像度のテキストリッチな画像に苦しむ。
MLLMベースのTIMTのためのグローバルなデュアル視覚認識フレームワークであるGLoTranを提案する。
- 参考スコア(独自算出の注目度): 39.52909851398792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Image Machine Translation (TIMT) aims to translate text embedded in images in the source-language into target-language, requiring synergistic integration of visual perception and linguistic understanding. Existing TIMT methods, whether cascaded pipelines or end-to-end multimodal large language models (MLLMs),struggle with high-resolution text-rich images due to cluttered layouts, diverse fonts, and non-textual distractions, resulting in text omission, semantic drift, and contextual inconsistency. To address these challenges, we propose GLoTran, a global-local dual visual perception framework for MLLM-based TIMT. GLoTran integrates a low-resolution global image with multi-scale region-level text image slices under an instruction-guided alignment strategy, conditioning MLLMs to maintain scene-level contextual consistency while faithfully capturing fine-grained textual details. Moreover, to realize this dual-perception paradigm, we construct GLoD, a large-scale text-rich TIMT dataset comprising 510K high-resolution global-local image-text pairs covering diverse real-world scenarios. Extensive experiments demonstrate that GLoTran substantially improves translation completeness and accuracy over state-of-the-art MLLMs, offering a new paradigm for fine-grained TIMT under high-resolution and text-rich conditions.
- Abstract(参考訳): Text Image Machine Translation (TIMT)は、ソース言語のイメージに埋め込まれたテキストをターゲット言語に翻訳することを目的としており、視覚知覚と言語理解の相乗的統合を必要とする。
既存のTIMT手法では、カスケードパイプラインやMLLM(End-to-end Multimodal Large Language Model)が、乱雑なレイアウト、多種多様なフォント、非テキストの散逸による高解像度のテキストリッチなイメージに固執し、テキストの欠落、セマンティックドリフト、コンテキストの不整合をもたらす。
これらの課題に対処するため,MLLMベースのTIMTのためのグローバルなデュアル視覚認識フレームワークであるGLoTranを提案する。
GLoTranは、低解像度のグローバルイメージとマルチスケールの領域レベルのテキスト画像スライスを命令誘導型アライメント戦略の下で統合し、シーンレベルのコンテキスト整合性を維持しつつ、きめ細かいテキストの詳細を忠実にキャプチャするMLLMを条件付けする。
さらに,このデュアルパーセプションパラダイムを実現するために,多種多様な実世界のシナリオをカバーする510Kの高解像度なグローバルローカル画像テキストペアからなる大規模テキストリッチTIMTデータセットであるGLoDを構築した。
大規模な実験により、GLoTranは最先端のMLLMの翻訳完全性と精度を大幅に向上し、高解像度でテキストリッチなTIMTのための新しいパラダイムを提供する。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Zero-shot Text-guided Infinite Image Synthesis with LLM guidance [2.531998650341267]
解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。
テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T15:10:01Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。