論文の概要: Exploring Better Text Image Translation with Multimodal Codebook
- arxiv url: http://arxiv.org/abs/2305.17415v2
- Date: Fri, 2 Jun 2023 12:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 19:00:57.849955
- Title: Exploring Better Text Image Translation with Multimodal Codebook
- Title(参考訳): マルチモーダルコードブックによるより良いテキスト画像翻訳の探索
- Authors: Zhibin Lan, Jiawei Yu, Xiang Li, Wen Zhang, Jian Luan, Bin Wang, Degen
Huang, Jinsong Su
- Abstract要約: テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.12169843196739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text image translation (TIT) aims to translate the source texts embedded in
the image to target translations, which has a wide range of applications and
thus has important research value. However, current studies on TIT are
confronted with two main bottlenecks: 1) this task lacks a publicly available
TIT dataset, 2) dominant models are constructed in a cascaded manner, which
tends to suffer from the error propagation of optical character recognition
(OCR). In this work, we first annotate a Chinese-English TIT dataset named
OCRMT30K, providing convenience for subsequent studies. Then, we propose a TIT
model with a multimodal codebook, which is able to associate the image with
relevant texts, providing useful supplementary information for translation.
Moreover, we present a multi-stage training framework involving text machine
translation, image-text alignment, and TIT tasks, which fully exploits
additional bilingual texts, OCR dataset and our OCRMT30K dataset to train our
model. Extensive experiments and in-depth analyses strongly demonstrate the
effectiveness of our proposed model and training framework.
- Abstract(参考訳): テキスト画像翻訳(TIT)は、画像に埋め込まれたテキストをターゲット翻訳に変換することを目的としており、幅広い応用があり、重要な研究価値を持つ。
しかし、TITに関する最近の研究は2つの主要なボトルネックに直面している。
1) このタスクにはTITデータセットが公開されていない。
2) 支配的モデルはカスケード方式で構築され, 光文字認識(OCR)の誤差伝播に悩まされる傾向にある。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付け,翻訳に有用な補足情報を提供するマルチモーダルコードブックを用いたTITモデルを提案する。
さらに、テキスト機械翻訳、画像テキストアライメント、TITタスクを含む多段階トレーニングフレームワークを提案し、追加のバイリンガルテキスト、OCRデータセット、OCRMT30Kデータセットをフル活用してモデルをトレーニングします。
広範な実験と詳細な分析は,提案するモデルとトレーニングフレームワークの有効性を強く実証する。
関連論文リスト
- AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Improving End-to-End Text Image Translation From the Auxiliary Text
Translation Task [26.046624228278528]
本稿では,テキスト翻訳を補助タスクとするエンドツーエンドモデルを訓練する,新しいテキスト翻訳拡張テキスト画像翻訳を提案する。
モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。
論文 参考訳(メタデータ) (2022-10-08T02:35:45Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。