論文の概要: PRIM: Towards Practical In-Image Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2509.05146v1
- Date: Fri, 05 Sep 2025 14:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.61923
- Title: PRIM: Towards Practical In-Image Multilingual Machine Translation
- Title(参考訳): PRIM: 画像内多言語機械翻訳の実践に向けて
- Authors: Yanzhi Tian, Zeming Liu, Zhengyang Liu, Chong Feng, Xin Li, Heyan Huang, Yuhang Guo,
- Abstract要約: In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。
本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
- 参考スコア(独自算出の注目度): 48.357528732061105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Image Machine Translation (IIMT) aims to translate images containing texts from one language to another. Current research of end-to-end IIMT mainly conducts on synthetic data, with simple background, single font, fixed text position, and bilingual translation, which can not fully reflect real world, causing a significant gap between the research and practical conditions. To facilitate research of IIMT in real-world scenarios, we explore Practical In-Image Multilingual Machine Translation (IIMMT). In order to convince the lack of publicly available data, we annotate the PRIM dataset, which contains real-world captured one-line text images with complex background, various fonts, diverse text positions, and supports multilingual translation directions. We propose an end-to-end model VisTrans to handle the challenge of practical conditions in PRIM, which processes visual text and background information in the image separately, ensuring the capability of multilingual translation while improving the visual quality. Experimental results indicate the VisTrans achieves a better translation quality and visual effect compared to other models. The code and dataset are available at: https://github.com/BITHLP/PRIM.
- Abstract(参考訳): In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの現在の研究は、主に単純な背景、単一フォント、固定テキスト位置、およびバイリンガル翻訳による合成データを用いており、現実世界を完全には反映できないため、研究と実践条件の間に大きなギャップが生じる。
実世界のシナリオにおけるIIMTの研究を容易にするために,実画像多言語機械翻訳(IIMMT)について検討する。
PRIMデータセットには、複雑な背景、多様なフォント、多様なテキスト位置を持つ実世界の1行のテキストイメージが含まれており、多言語翻訳の方向をサポートする。
画像中の視覚テキストと背景情報を別々に処理し、視覚的品質を改善しつつ多言語翻訳能力を確保するPRIMにおける実用条件の課題に対処するエンド・ツー・エンドモデルVisTransを提案する。
実験の結果、VisTransは他のモデルと比較して翻訳品質と視覚効果が向上していることが示された。
コードとデータセットは、https://github.com/BITHLP/PRIM.comで公開されている。
関連論文リスト
- Exploring In-Image Machine Translation with Real-World Background [5.839694459794486]
In-Image Machine Translationは、ある言語から別の言語に画像内のテキストを翻訳することを目的としている。
本稿では,背景画像とテキスト画像とを分離したDebackXモデルを提案する。
実験結果から,本モデルは翻訳品質と視覚効果の両面で向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T09:02:53Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。