論文の概要: Style Customization of Text-to-Vector Generation with Image Diffusion Priors
- arxiv url: http://arxiv.org/abs/2505.10558v1
- Date: Thu, 15 May 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.460035
- Title: Style Customization of Text-to-Vector Generation with Image Diffusion Priors
- Title(参考訳): 画像拡散プリミティブを用いたテキスト・ベクター生成のスタイルカスタマイズ
- Authors: Peiying Zhang, Nanxuan Zhao, Jing Liao,
- Abstract要約: SVG生成のための新しい2段階スタイルのカスタマイズパイプラインを提案する。
第一段階では、SVGの構造的規則性を保証するため、経路レベルの表現を持つT2V拡散モデルを訓練する。
第2段階では、カスタマイズされたT2Iモデルを蒸留することにより、T2V拡散モデルを異なるスタイルにカスタマイズする。
- 参考スコア(独自算出の注目度): 27.949704002538944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.
- Abstract(参考訳): スケーラブルベクトルグラフィックス(SVG)は、その解像度独立性とよく組織された層構造のために設計者から非常に好まれている。
既存のテキスト・ツー・ベクター・ジェネレーション(T2V)はテキスト・プロンプトからSVGを作成することができるが、それらはしばしば実践的な応用において重要なニーズであるスタイルのカスタマイズを見落としている。
スタイルのカスタマイズのために既存のT2Vメソッドを拡張することは、ある種の問題を引き起こす。
最適化ベースのT2Vモデルは、T2I(text-to-image)モデルの先行をカスタマイズに利用することができるが、構造的規則性を維持するのに苦労する。
一方、フィードフォワードT2Vモデルでは、構造的規則性を確保することができるが、SVGトレーニングデータに制限があるため、コンテンツやスタイルの絡み合わせが困難である。
これらの課題に対処するために、フィードフォワードT2VモデルとT2I画像先行モデルの利点を生かして、SVG生成のための新しい2段階スタイルのカスタマイズパイプラインを提案する。
第1段階では,多種多様な表現能力を維持しつつ,SVGの構造的規則性を確保するため,経路レベルの表現を持つT2V拡散モデルを訓練する。
第2段階では、カスタマイズされたT2Iモデルを蒸留することにより、T2V拡散モデルを異なるスタイルにカスタマイズする。
これらの技術を統合することで、私たちのパイプラインは、効率的なフィードフォワード方式でテキストプロンプトに基づいて、高品質で多様なSVGをカスタムスタイルで生成できる。
提案手法の有効性は広範囲な実験により検証された。
プロジェクトページはhttps://customsvg.github.io.com。
関連論文リスト
- OmniSVG: A Unified Scalable Vector Graphics Generation Model [70.26163703054979]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2025-04-08T17:59:49Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z) - SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion [32.01103570298614]
本稿では,実世界のSVGデータにスケール可能なテキスト間SVGモデルであるSVGFusionを紹介する。
SVGFusionの中核となる考え方は、人気のあるText-to-Imageフレームワークを使用して、ベクトルグラフィックスの連続的な潜在空間を学習することである。
SVGFを効果的に訓練し,評価するために,大規模で高品質なSVGデータセットであるSVGX-Datasetを構築した。
論文 参考訳(メタデータ) (2024-12-11T09:02:25Z) - Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文 参考訳(メタデータ) (2024-07-11T17:06:53Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - Text-to-Vector Generation with Neural Path Representation [27.949704002538944]
本稿では,シーケンスと画像の両モードから経路潜在空間を学習するニューラルパス表現を提案する。
第1段階では、事前訓練されたテキスト・ツー・イメージ拡散モデルにより、複雑なベクトルグラフィックスの初期生成が導かれる。
第2段階では、レイヤワイズ画像ベクトル化戦略を用いてグラフィクスを洗練し、より明確な要素と構造を実現する。
論文 参考訳(メタデータ) (2024-05-16T17:59:22Z) - Text-Guided Vector Graphics Customization [31.41266632288932]
テキストのプロンプトに基づいて高品質なベクトルグラフィックスを生成する新しいパイプラインを提案する。
提案手法は,大規模な事前学習されたテキスト・ツー・イメージ・モデルの能力を利用する。
我々は,ベクトルレベル,画像レベル,テキストレベルの観点から,複数の指標を用いて評価を行った。
論文 参考訳(メタデータ) (2023-09-21T17:59:01Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。