論文の概要: OrienText: Surface Oriented Textual Image Generation
- arxiv url: http://arxiv.org/abs/2505.20958v1
- Date: Tue, 27 May 2025 09:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.556425
- Title: OrienText: Surface Oriented Textual Image Generation
- Title(参考訳): OrienText:Surface Oriented Textual Image Generation
- Authors: Shubham Singh Paliwal, Arushi Jain, Monika Sharma, Vikram Jamwal, Lovekesh Vig,
- Abstract要約: 本稿では,T2I 生成拡散モデルに対する条件入力として,領域特異的な表面正規化を利用する OrienText 法を提案する。
我々のアプローチは、画像コンテキスト内のテキストの正確なレンダリングと正しい向きを保証する。
- 参考スコア(独自算出の注目度): 13.181406997976545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Textual content in images is crucial in e-commerce sectors, particularly in marketing campaigns, product imaging, advertising, and the entertainment industry. Current text-to-image (T2I) generation diffusion models, though proficient at producing high-quality images, often struggle to incorporate text accurately onto complex surfaces with varied perspectives, such as angled views of architectural elements like buildings, banners, or walls. In this paper, we introduce the Surface Oriented Textual Image Generation (OrienText) method, which leverages region-specific surface normals as conditional input to T2I generation diffusion model. Our approach ensures accurate rendering and correct orientation of the text within the image context. We demonstrate the effectiveness of the OrienText method on a self-curated dataset of images and compare it against the existing textual image generation methods.
- Abstract(参考訳): 画像中のテキストコンテンツは、特にマーケティングキャンペーン、製品画像、広告、エンターテイメント業界において、電子商取引分野において不可欠である。
現在のテキスト・ツー・イメージ(T2I)生成拡散モデルは高品質な画像の製作に長けているが、建物やバナー、壁といった建築要素の角度付けされたビューなど、様々な視点を持つ複雑な面にテキストを正確に組み込むのに苦労することが多い。
本稿では,T2I 生成拡散モデルに対する条件入力として,領域特異的な表面正規化を利用する Surface Oriented Textual Image Generation (OrienText) 手法を提案する。
我々のアプローチは、画像コンテキスト内のテキストの正確なレンダリングと正しい向きを保証する。
本稿では,OrienText法が画像の自己計算データセットに与える影響を実証し,既存のテキスト画像生成手法と比較する。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [21.171612603385405]
テキストフレンドリーな画像生成のための,空白領域におけるトレーニング不要な動的バックグラウンド適応であるTextCenGenを提案する。
本手法は,テキスト領域に重なり合う矛盾するオブジェクトを識別するために,クロスアテンションマップを解析する。
本手法はプラグ・アンド・プレイであり, セマンティックな忠実さと視覚的品質の両面のバランスを保ちながら, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-04-18T01:10:24Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。