論文の概要: SVGCraft: Beyond Single Object Text-to-SVG Synthesis with Comprehensive Canvas Layout
- arxiv url: http://arxiv.org/abs/2404.00412v1
- Date: Sat, 30 Mar 2024 16:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:49:50.937124
- Title: SVGCraft: Beyond Single Object Text-to-SVG Synthesis with Comprehensive Canvas Layout
- Title(参考訳): SVGCraft: 包括的Canvasレイアウトによる単一オブジェクトテキストからSVGへの合成
- Authors: Ayan Banerjee, Nityanand Mathur, Josep Lladós, Umapada Pal, Anjan Dutta,
- Abstract要約: この研究は、テキスト記述からシーン全体を描写したベクトルグラフィックスを作成するための新しいエンドツーエンドフレームワークを導入する。
SVGCraftは、訓練済みエンコーダと不透明度変調によるLPIPS損失を使って最適化され、類似性を最大化する。
抽象化、認識可能性、細部において、以前の作品を上回ることが示されている。
- 参考スコア(独自算出の注目度): 14.824205628841158
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating VectorArt from text prompts is a challenging vision task, requiring diverse yet realistic depictions of the seen as well as unseen entities. However, existing research has been mostly limited to the generation of single objects, rather than comprehensive scenes comprising multiple elements. In response, this work introduces SVGCraft, a novel end-to-end framework for the creation of vector graphics depicting entire scenes from textual descriptions. Utilizing a pre-trained LLM for layout generation from text prompts, this framework introduces a technique for producing masked latents in specified bounding boxes for accurate object placement. It introduces a fusion mechanism for integrating attention maps and employs a diffusion U-Net for coherent composition, speeding up the drawing process. The resulting SVG is optimized using a pre-trained encoder and LPIPS loss with opacity modulation to maximize similarity. Additionally, this work explores the potential of primitive shapes in facilitating canvas completion in constrained environments. Through both qualitative and quantitative assessments, SVGCraft is demonstrated to surpass prior works in abstraction, recognizability, and detail, as evidenced by its performance metrics (CLIP-T: 0.4563, Cosine Similarity: 0.6342, Confusion: 0.66, Aesthetic: 6.7832). The code will be available at https://github.com/ayanban011/SVGCraft.
- Abstract(参考訳): VectorArtをテキストプロンプトから生成することは難しいビジョンタスクであり、目に見えない実体だけでなく、見えても現実的な描写を必要とする。
しかし、既存の研究は、複数の要素からなる総合的なシーンではなく、単一のオブジェクトの生成に限られている。
これに対し、本研究では、テキスト記述からシーン全体を描写したベクトルグラフィックスを作成するための新しいエンドツーエンドフレームワークであるSVGCraftを紹介した。
本フレームワークでは,テキストプロンプトからレイアウトを生成するための事前学習 LLM を用いることで,特定の有界ボックスにマスク付き潜伏剤を製造し,正確なオブジェクト配置を実現する手法を提案する。
注意マップを統合するための融合機構を導入し、コヒーレントな構成に拡散U-Netを使用し、描画プロセスを高速化する。
得られたSVGは、訓練済みエンコーダと不透明度変調によるLPIPS損失を用いて最適化され、類似性を最大化する。
さらに、この研究は、制約された環境でのキャンバスの完成を促進するための原始的な形状の可能性を探究する。
定性評価と定量的評価の両方を通じて、SVGCraftは、そのパフォーマンス指標(CLIP-T: 0.4563, Cosine similarity: 0.6342, Confusion: 0.66, Aesthetic: 6.7832)で証明されているように、抽象化、認識可能性、詳細に関する先行研究を上回ることが示されている。
コードはhttps://github.com/ayanban011/SVGCraft.comから入手できる。
関連論文リスト
- Chat2SVG: Vector Graphics Generation with Large Language Models and Image Diffusion Models [14.917583676464266]
Chat2SVGは大規模言語モデルと画像拡散モデルを組み合わせたハイブリッドフレームワークである。
本システムにより,自然言語による直感的な編集が可能となり,プロのベクトルグラフィックス作成が可能となった。
論文 参考訳(メタデータ) (2024-11-25T17:31:57Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z) - StarVector: Generating Scalable Vector Graphics Code from Images [13.995963187283321]
本稿では,コード生成大言語モデル(CodeLLM)と視覚モデルを統合する多モードSVG生成モデルであるStarを紹介する。
提案手法では,CLIP画像を用いて画素ベースの画像から視覚表現を抽出し,アダプタモジュールを介して視覚トークンに変換する。
以上の結果から,従来のSVG生成技術よりも視覚的品質と複雑さが著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2023-12-17T08:07:32Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Text-Guided Vector Graphics Customization [31.41266632288932]
テキストのプロンプトに基づいて高品質なベクトルグラフィックスを生成する新しいパイプラインを提案する。
提案手法は,大規模な事前学習されたテキスト・ツー・イメージ・モデルの能力を利用する。
我々は,ベクトルレベル,画像レベル,テキストレベルの観点から,複数の指標を用いて評価を行った。
論文 参考訳(メタデータ) (2023-09-21T17:59:01Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation [217.86315551526235]
本稿では,複雑なSVGアイコンの生成と操作のために,DeepSVGと呼ばれる新しい階層型生成ネットワークを提案する。
我々のアーキテクチャは、その形状自体をエンコードする低レベルのコマンドから、効果的に高レベルの形状を分離します。
我々のネットワークは、多様なベクトルグラフィックスを正確に再構築し、強力なアニメーションツールとして機能することを実証する。
論文 参考訳(メタデータ) (2020-07-22T09:36:31Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。