論文の概要: Towards Visual Text Design Transfer Across Languages
- arxiv url: http://arxiv.org/abs/2410.18823v2
- Date: Tue, 29 Oct 2024 08:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:16.195625
- Title: Towards Visual Text Design Transfer Across Languages
- Title(参考訳): 言語間のビジュアルテキストデザイン伝達に向けて
- Authors: Yejin Choi, Jiwan Chung, Sumin Shim, Giyeong Oh, Youngjae Yu,
- Abstract要約: マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
- 参考スコア(独自算出の注目度): 49.78504488452978
- License:
- Abstract: Visual text design plays a critical role in conveying themes, emotions, and atmospheres in multimodal formats such as film posters and album covers. Translating these visual and textual elements across languages extends the concept of translation beyond mere text, requiring the adaptation of aesthetic and stylistic features. To address this, we introduce a novel task of Multimodal Style Translation (MuST-Bench), a benchmark designed to evaluate the ability of visual text generation models to perform translation across different writing systems while preserving design intent. Our initial experiments on MuST-Bench reveal that existing visual text generation models struggle with the proposed task due to the inadequacy of textual descriptions in conveying visual design. In response, we introduce SIGIL, a framework for multimodal style translation that eliminates the need for style descriptions. SIGIL enhances image generation models through three innovations: glyph latent for multilingual settings, pretrained VAEs for stable style guidance, and an OCR model with reinforcement learning feedback for optimizing readable character generation. SIGIL outperforms existing baselines by achieving superior style consistency and legibility while maintaining visual fidelity, setting itself apart from traditional description-based approaches. We release MuST-Bench publicly for broader use and exploration https://huggingface.co/datasets/yejinc/MuST-Bench.
- Abstract(参考訳): ビジュアルテキストデザインは、映画ポスターやアルバムカバーといったマルチモーダルフォーマットでテーマ、感情、雰囲気を伝える上で重要な役割を果たす。
これらの視覚的要素とテキスト的要素を言語間で翻訳することは、単なるテキストを超えて翻訳の概念を拡張し、審美的特徴と様式的特徴の適応を必要とする。
そこで本研究では,設計意図を保ちながら,異なる書式システム間で翻訳を行う視覚テキスト生成モデルの能力を評価するためのベンチマークである,Multimodal Style Translation (MuST-Bench) を提案する。
MuST-Benchの初期実験では、既存のビジュアルテキスト生成モデルは、ビジュアルデザインを伝達するテキスト記述の不適切さのため、提案課題に苦慮していることが明らかとなった。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
SIGILは、多言語設定のためのグリフラテント、安定したスタイルガイダンスのための事前訓練されたVAE、読みやすい文字生成を最適化するための強化学習フィードバックを備えたOCRモデルという3つの革新を通じて、画像生成モデルを強化する。
SIGILは、視覚的忠実さを維持しながら、優れたスタイルの一貫性と正当性を達成し、従来の記述に基づくアプローチとは分離することで、既存のベースラインよりも優れています。
私たちは MuST-Bench を公開して,より広範な使用と探索のために https://huggingface.co/datasets/yejinc/MuST-Bench をリリースしています。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [22.054292195271476]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。
注意に基づくスタイル抽出モジュールを導入する。
また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文 参考訳(メタデータ) (2025-01-03T19:17:27Z) - One-Shot Multilingual Font Generation Via ViT [2.023301270280465]
フォントデザインは、中国語、日本語、韓国語といったログラフ言語に固有の課題をもたらす。
本稿では,多言語フォント生成のためのビジョントランスフォーマー(ViT)ベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T23:52:35Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。