論文の概要: LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control
- arxiv url: http://arxiv.org/abs/2603.09759v1
- Date: Tue, 10 Mar 2026 14:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.409538
- Title: LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control
- Title(参考訳): LogoDiffuser: 文字認識による学習不要な多言語ロゴ生成とスティル化
- Authors: Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi,
- Abstract要約: マルチモーダル拡散変換器を用いて多言語ロゴデザインを合成する学習自由手法を提案する。
テキストプロンプトの代わりに、ターゲット文字を画像として入力し、言語によらず頑健な文字構造制御を可能にする。
本手法は,多言語ロゴ生成における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 6.75235033060142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image generation have been remarkable, but generating multilingual design logos that harmoniously integrate visual and textual elements remains a challenging task. Existing methods often distort character geometry when applying creative styles and struggle to support multilingual text generation without additional training. To address these challenges, we propose LogoDiffuser, a training-free method that synthesizes multilingual logo designs using the multimodal diffusion transformer. Instead of using textual prompts, we input the target characters as images, enabling robust character structure control regardless of language. We first analyze the joint attention mechanism to identify core tokens, which are tokens that strongly respond to textual structures. With this observation, our method integrates character structure and visual design by injecting the most informative attention maps. Furthermore, we perform layer-wise aggregation of attention maps to mitigate attention shifts across layers and obtain consistent core tokens. Extensive experiments and user studies demonstrate that our method achieves state-of-the-art performance in multilingual logo generation.
- Abstract(参考訳): テキスト・ツー・イメージ生成の最近の進歩は目覚ましいが、視覚的要素とテキスト的要素を調和的に統合する多言語デザインロゴを生成することは難しい課題である。
既存の手法は、創造的なスタイルを適用する際に文字の幾何学を歪め、追加の訓練なしに多言語テキスト生成をサポートするのに苦労する。
これらの課題に対処するため,マルチモーダル拡散変換器を用いて多言語ロゴを合成する学習自由度手法であるLogoDiffuserを提案する。
テキストプロンプトの代わりに、ターゲット文字を画像として入力し、言語によらず頑健な文字構造制御を可能にする。
まず,テキスト構造に強く反応するトークンであるコアトークンを識別するための共同注意機構を解析する。
この観察により,最も情報性の高い注目マップを注入することで,文字構造と視覚設計を統合した。
さらに,アテンションマップのレイヤワイズアグリゲーションを行い,各レイヤ間のアテンションシフトを緩和し,一貫したコアトークンを得る。
広範囲な実験とユーザスタディにより,多言語ロゴ生成における最先端のパフォーマンスが得られた。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems [25.47053654117902]
先進視覚言語モデル(VLM)がこのレジリエンスを共有しているかどうかを検討する。
我々は、異なる筆記システムにまたがる2つの心理物理学的なベンチマークを構築した。
クリーンテキスト上での強いパフォーマンスにもかかわらず、現代のVLMはこれらの摂動の下で深刻な低下を見せている。
論文 参考訳(メタデータ) (2025-09-04T05:35:32Z) - WordCraft: Interactive Artistic Typography with Attention Awareness and Noise Blending [12.655120187133779]
アートタイポグラフィーは、創造的かつ妥当な視覚効果を持つ入力文字をスタイリングすることを目的としている。
従来のアプローチは手動設計に大きく依存するが、最近の生成モデル、特に拡散型手法は自動文字スタイリングを可能にしている。
我々はこれらの制限に対処するために拡散モデルを統合するインタラクティブなアートタイポグラフィーシステムであるWordCraftを紹介する。
論文 参考訳(メタデータ) (2025-07-13T10:49:09Z) - DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。
提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。
視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文 参考訳(メタデータ) (2025-03-03T15:22:57Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。