論文の概要: OrienText: Surface Oriented Textual Image Generation
- arxiv url: http://arxiv.org/abs/2505.20958v1
- Date: Tue, 27 May 2025 09:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.556425
- Title: OrienText: Surface Oriented Textual Image Generation
- Title(参考訳): OrienText:Surface Oriented Textual Image Generation
- Authors: Shubham Singh Paliwal, Arushi Jain, Monika Sharma, Vikram Jamwal, Lovekesh Vig,
- Abstract要約: 本稿では,T2I 生成拡散モデルに対する条件入力として,領域特異的な表面正規化を利用する OrienText 法を提案する。
我々のアプローチは、画像コンテキスト内のテキストの正確なレンダリングと正しい向きを保証する。
- 参考スコア(独自算出の注目度): 13.181406997976545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Textual content in images is crucial in e-commerce sectors, particularly in marketing campaigns, product imaging, advertising, and the entertainment industry. Current text-to-image (T2I) generation diffusion models, though proficient at producing high-quality images, often struggle to incorporate text accurately onto complex surfaces with varied perspectives, such as angled views of architectural elements like buildings, banners, or walls. In this paper, we introduce the Surface Oriented Textual Image Generation (OrienText) method, which leverages region-specific surface normals as conditional input to T2I generation diffusion model. Our approach ensures accurate rendering and correct orientation of the text within the image context. We demonstrate the effectiveness of the OrienText method on a self-curated dataset of images and compare it against the existing textual image generation methods.
- Abstract(参考訳): 画像中のテキストコンテンツは、特にマーケティングキャンペーン、製品画像、広告、エンターテイメント業界において、電子商取引分野において不可欠である。
現在のテキスト・ツー・イメージ(T2I)生成拡散モデルは高品質な画像の製作に長けているが、建物やバナー、壁といった建築要素の角度付けされたビューなど、様々な視点を持つ複雑な面にテキストを正確に組み込むのに苦労することが多い。
本稿では,T2I 生成拡散モデルに対する条件入力として,領域特異的な表面正規化を利用する Surface Oriented Textual Image Generation (OrienText) 手法を提案する。
我々のアプローチは、画像コンテキスト内のテキストの正確なレンダリングと正しい向きを保証する。
本稿では,OrienText法が画像の自己計算データセットに与える影響を実証し,既存のテキスト画像生成手法と比較する。
関連論文リスト
- Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [21.171612603385405]
テキストフレンドリーな画像生成のための,空白領域におけるトレーニング不要な動的バックグラウンド適応であるTextCenGenを提案する。
本手法は,テキスト領域に重なり合う矛盾するオブジェクトを識別するために,クロスアテンションマップを解析する。
本手法はプラグ・アンド・プレイであり, セマンティックな忠実さと視覚的品質の両面のバランスを保ちながら, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-04-18T01:10:24Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。