論文の概要: Ensuring Consistency for In-Image Translation
- arxiv url: http://arxiv.org/abs/2412.18139v1
- Date: Tue, 24 Dec 2024 03:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:35.028855
- Title: Ensuring Consistency for In-Image Translation
- Title(参考訳): 画像内翻訳における一貫性の確保
- Authors: Chengpeng Fu, Xiaocheng Feng, Yichong Huang, Wenshuai Huo, Baohang Li, Zhirui Zhang, Yunfei Lu, Dandan Tu, Duyu Tang, Hui Wang, Bing Qin, Ting Liu,
- Abstract要約: 画像内の機械翻訳タスクでは、画像内に埋め込まれたテキストを翻訳し、翻訳結果を画像形式で表示する。
本稿では,このタスクにおいて,変換一貫性と画像生成一貫性という,2種類の一貫性の維持の必要性を提案する。
本稿では,HCIITと呼ばれる新しい2段階のフレームワークを紹介し,第1段階の多言語多言語大言語モデルを用いたテキスト画像翻訳と第2段階の拡散モデルによる画像バックフィルについて述べる。
- 参考スコア(独自算出の注目度): 47.1986912570945
- License:
- Abstract: The in-image machine translation task involves translating text embedded within images, with the translated results presented in image format. While this task has numerous applications in various scenarios such as film poster translation and everyday scene image translation, existing methods frequently neglect the aspect of consistency throughout this process. We propose the need to uphold two types of consistency in this task: translation consistency and image generation consistency. The former entails incorporating image information during translation, while the latter involves maintaining consistency between the style of the text-image and the original image, ensuring background integrity. To address these consistency requirements, we introduce a novel two-stage framework named HCIIT (High-Consistency In-Image Translation) which involves text-image translation using a multimodal multilingual large language model in the first stage and image backfilling with a diffusion model in the second stage. Chain of thought learning is utilized in the first stage to enhance the model's ability to leverage image information during translation. Subsequently, a diffusion model trained for style-consistent text-image generation ensures uniformity in text style within images and preserves background details. A dataset comprising 400,000 style-consistent pseudo text-image pairs is curated for model training. Results obtained on both curated test sets and authentic image test sets validate the effectiveness of our framework in ensuring consistency and producing high-quality translated images.
- Abstract(参考訳): 画像内の機械翻訳タスクでは、画像内に埋め込まれたテキストを翻訳し、翻訳結果を画像形式で表示する。
このタスクは,フィルムポスター翻訳や日常のシーン画像翻訳など,様々なシナリオにおいて多くの応用があるが,既存の手法では,このプロセスを通して一貫性の面を無視することが多い。
本稿では,このタスクにおいて,変換一貫性と画像生成一貫性という,2種類の一貫性の維持の必要性を提案する。
前者は翻訳中に画像情報を組み込む必要があり、後者はテキストイメージのスタイルと元のイメージとの整合性を維持し、背景の整合性を確保する。
これらの整合性要件に対処するため,HCIIT (High-Consistency In- Image Translation) という新しい2段階のフレームワークを導入する。
思考学習の連鎖は、翻訳中に画像情報を活用するモデルの能力を高めるために第1段階で利用される。
その後、スタイル一貫性のあるテキストイメージ生成のために訓練された拡散モデルにより、画像内のテキストスタイルの均一性が保証され、背景の詳細が保存される。
40,000のスタイル一貫性を持つ擬似テキストイメージペアからなるデータセットをモデルトレーニングのためにキュレートする。
その結果, 画像の整合性を確保し, 高品質な画像を生成するためのフレームワークの有効性が検証された。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Design Booster: A Text-Guided Diffusion Model for Image Translation with
Spatial Layout Preservation [12.365230063278625]
本稿では,テキスト条件とともにレイアウト認識された画像条件を学習し,フレキシブルな画像翻訳のための新しいアプローチを提案する。
本手法は,トレーニング期間中に画像とテキストを新しい領域に符号化する。
提案手法と最先端手法との実験的比較により,本手法はスタイル画像翻訳とセマンティック画像翻訳の両方において最適であることを示す。
論文 参考訳(メタデータ) (2023-02-05T02:47:13Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。