論文の概要: PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12278v1
- Date: Sun, 14 Sep 2025 08:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.673801
- Title: PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models
- Title(参考訳): PATIMT-Bench:大規模視覚言語モデルにおける位置認識テキスト画像機械翻訳のためのマルチシナリオベンチマーク
- Authors: Wanru Zhuang, Wenbo Li, Zhibin Lan, Xu Han, Peng Li, Jinsong Su,
- Abstract要約: Text Image Machine Translation (TIMT) は、画像内に埋め込まれたテキストを別の言語に翻訳することを目的としている。
従来のTIMTを位置認識型TIMT(PATIMT)に拡張し,細粒度・レイアウト保存型翻訳を支援する。
PATIMTベンチマーク (PATIMTBench) を構築する。
具体的には、シナリオに基づいて適切なOCRツールを適応的に選択するAdaptive Image OCR Refinement Pipelineを紹介する。
- 参考スコア(独自算出の注目度): 32.38746546500033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Image Machine Translation (TIMT) aims to translate texts embedded within an image into another language. Current TIMT studies primarily focus on providing translations for all the text within an image, while neglecting to provide bounding boxes and covering limited scenarios. In this work, we extend traditional TIMT into position-aware TIMT (PATIMT), aiming to support fine-grained and layoutpreserving translation, which holds great practical value but remains largely unexplored. This task comprises two key sub-tasks: regionspecific translation and full-image translation with grounding. To support existing models on PATIMT and conduct fair evaluation, we construct the PATIMT benchmark (PATIMTBench), which consists of 10 diverse real-world scenarios. Specifically, we introduce an Adaptive Image OCR Refinement Pipeline, which adaptively selects appropriate OCR tools based on scenario and refines the results of text-rich images. To ensure evaluation reliability, we further construct a test set, which contains 1,200 high-quality instances manually annotated and reviewed by human experts. After fine-tuning on our data, compact Large Vision-Language Models (LVLMs) achieve state-of-the-art performance on both sub-tasks. Experimental results also highlight the scalability and generalizability of our training data
- Abstract(参考訳): Text Image Machine Translation (TIMT) は、画像内に埋め込まれたテキストを別の言語に翻訳することを目的としている。
TIMTの現在の研究は、主に画像内のすべてのテキストに対する翻訳を提供することに重点を置いているが、バウンディングボックスの提供や限られたシナリオをカバーすることは無視されている。
本研究では,従来のTIMTを位置認識型TIMT (PATIMT) に拡張する。
このタスクは、地域特化翻訳と接地付きフルイメージ翻訳の2つの重要なサブタスクから構成される。
PATIMTの既存モデルをサポートし,公平な評価を行うため,PATIMTベンチマーク(PATIMTBench)を構築した。
具体的には、シナリオに基づいて適切なOCRツールを適応的に選択し、テキストリッチな画像の結果を洗練するAdaptive Image OCR Refinement Pipelineを紹介する。
評価信頼性を確保するために,人手によるアノテートおよびレビューを行う1200の高品質なインスタンスを含むテストセットをさらに構築する。
我々のデータを微調整した後、コンパクトなLVLM(Large Vision-Language Models)は両方のサブタスクで最先端のパフォーマンスを実現する。
実験結果は、トレーニングデータのスケーラビリティと一般化性も強調している。
関連論文リスト
- PRIM: Towards Practical In-Image Multilingual Machine Translation [48.357528732061105]
In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。
本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
論文 参考訳(メタデータ) (2025-09-05T14:38:07Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。