Fugu-MT 論文翻訳(概要): SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion

論文の概要: SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion

arxiv url: http://arxiv.org/abs/2412.10437v2
Date: Sun, 23 Mar 2025 16:20:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.353945
Title: SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion
Title（参考訳）: SVGFusion:ベクトル空間拡散によるスケーラブルテキスト-SVG生成
Authors: Ximing Xing, Juncheng Hu, Jing Zhang, Dong Xu, Qian Yu,
Abstract要約: 本稿では,実世界のSVGデータにスケール可能なテキスト間SVGモデルであるSVGFusionを紹介する。 SVGFusionの中核となる考え方は、人気のあるText-to-Imageフレームワークを使用して、ベクトルグラフィックスの連続的な潜在空間を学習することである。 SVGFを効果的に訓練し,評価するために,大規模で高品質なSVGデータセットであるSVGX-Datasetを構築した。
参考スコア（独自算出の注目度）: 32.01103570298614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce SVGFusion, a Text-to-SVG model capable of scaling to real-world SVG data without relying on text-based discrete language models or prolonged Score Distillation Sampling (SDS) optimization. The core idea of SVGFusion is to utilize a popular Text-to-Image framework to learn a continuous latent space for vector graphics. Specifically, SVGFusion comprises two key modules: a Vector-Pixel Fusion Variational Autoencoder (VP-VAE) and a Vector Space Diffusion Transformer (VS-DiT). The VP-VAE processes both SVG codes and their corresponding rasterizations to learn a continuous latent space, while the VS-DiT generates latent codes within this space based on the input text prompt. Building on the VP-VAE, we propose a novel rendering sequence modeling strategy which enables the learned latent space to capture the inherent creation logic of SVGs. This allows the model to generate SVGs with higher visual quality and more logical construction, while systematically avoiding occlusion in complex graphic compositions. Additionally, the scalability of SVGFusion can be continuously enhanced by adding more VS-DiT blocks. To effectively train and evaluate SVGFusion, we construct SVGX-Dataset, a large-scale, high-quality SVG dataset that addresses the scarcity of high-quality vector data. Extensive experiments demonstrate the superiority of SVGFusion over existing SVG generation methods, establishing a new framework for SVG content creation. Code, model, and data will be released at: https://ximinng.github.io/SVGFusionProject/
Abstract（参考訳）: 本研究では,テキストベースの離散言語モデルやSDS(Score Distillation Sampling)の長期最適化に頼ることなく,実世界のSVGデータにスケール可能なテキスト間SVGモデルであるSVGFusionを紹介する。 SVGFusionの中核となる考え方は、人気のあるText-to-Imageフレームワークを使用して、ベクトルグラフィックスの連続的な潜在空間を学習することである。具体的には、SVGFusionは、Vector-Pixel Fusion Variational Autoencoder (VP-VAE)とVector Space Diffusion Transformer (VS-DiT)の2つの主要なモジュールから構成される。 VP-VAEはSVGコードとそれに対応するラスタ化の両方を処理して連続的な潜伏空間を学習し、VS-DiTは入力テキストプロンプトに基づいてこの空間内で潜伏コードを生成する。本稿では,VP-VAEに基づく新しいレンダリングシーケンスモデリング手法を提案する。これにより、複雑なグラフィック構成の閉塞を体系的に回避しながら、より高い視覚的品質とより論理的な構成でSVGを生成することができる。さらに、VS-DiTブロックを追加することでSVGFusionのスケーラビリティを継続的に向上することができる。 SVGFusionを効果的に訓練し評価するために,高品質なベクトルデータの不足に対処する大規模かつ高品質なSVGデータセットSVGX-Datasetを構築した。大規模な実験により,既存のSVG生成法よりもSVGFusionの方が優れていることが示され,SVGコンテンツ作成のための新たな枠組みが確立された。コード、モデル、データは、https://ximinng.github.io/SVGFusionProject/でリリースされる。

関連論文リスト

OmniSVG: A Unified Scalable Vector Graphics Generation Model [70.26163703054979]
我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。 SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文参考訳（メタデータ） (2025-04-08T17:59:49Z)
NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-07T18:50:06Z)
SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers [5.921625661186367]
本稿では,テキスト入力から高品質な色付きSVGを生成するためのコンポーネントベース自動回帰モデルを提案する。計算オーバーヘッドを大幅に削減し、従来の方法に比べて効率を向上する。既存のSVGデータセットの限界に対処し、我々の研究を支援するために、カラーSVGの最初の大規模データセットであるColorSVG-100Kを紹介する。
論文参考訳（メタデータ） (2024-12-13T15:24:11Z)
Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。 VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:30:18Z)
SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。 SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。 VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文参考訳（メタデータ） (2023-12-27T08:50:01Z)
StarVector: Generating Scalable Vector Graphics Code from Images and Text [15.32194071443065]
本稿では,SVG生成のための多モーダル大言語モデルであるStarを紹介する。画像のセマンティクスを理解し、SVGプリミティブをコンパクトで正確な出力に使用することにより、画像ベクトル化を行う。ベクトル化タスク間の一般化を可能にする2Mサンプルの多種多様なデータセットであるStarStackをトレーニングする。
論文参考訳（メタデータ） (2023-12-17T08:07:32Z)
VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文参考訳（メタデータ） (2022-11-21T10:04:27Z)
Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。 Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。 Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文参考訳（メタデータ） (2022-06-09T17:55:02Z)
SVG-Net: An SVG-based Trajectory Prediction Model [67.68864911674308]
シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。提案手法のほとんどが逆逆変換方式のシーンを表現しており、近年のアプローチではカスタムベクトル化方式が採用されている。
論文参考訳（メタデータ） (2021-10-07T18:00:08Z)
DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文参考訳（メタデータ） (2020-07-22T09:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。