論文の概要: LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2502.01105v1
- Date: Mon, 03 Feb 2025 06:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:29.538428
- Title: LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
- Title(参考訳): LayerTracer: 拡散変換器による認知適応型SVG合成
- Authors: Yiren Song, Danze Chen, Mike Zheng Shou,
- Abstract要約: LayerTracerは拡散トランスフォーマーで、設計者の階層化された生成プロセスを、シーケンシャルな設計操作の新たなデータセットから学習することでギャップを埋める。
画像ベクトル化には,参照画像を潜在トークンにエンコードする条件拡散機構を導入する。
実験では、生成品質と編集性の両方において、最適化ベースとニューラルベースラインに対してLayerTracerの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 17.881925697226656
- License:
- Abstract: Generating cognitive-aligned layered SVGs remains challenging due to existing methods' tendencies toward either oversimplified single-layer outputs or optimization-induced shape redundancies. We propose LayerTracer, a diffusion transformer based framework that bridges this gap by learning designers' layered SVG creation processes from a novel dataset of sequential design operations. Our approach operates in two phases: First, a text-conditioned DiT generates multi-phase rasterized construction blueprints that simulate human design workflows. Second, layer-wise vectorization with path deduplication produces clean, editable SVGs. For image vectorization, we introduce a conditional diffusion mechanism that encodes reference images into latent tokens, guiding hierarchical reconstruction while preserving structural integrity. Extensive experiments demonstrate LayerTracer's superior performance against optimization-based and neural baselines in both generation quality and editability, effectively aligning AI-generated vectors with professional design cognition.
- Abstract(参考訳): 認知に整合したSVGの生成は、単純化された単一層出力や最適化によって引き起こされる形状冗長性に対する既存の手法の傾向のため、依然として困難である。
本稿では,このギャップを埋める拡散トランスフォーマーベースのフレームワークであるLayerTracerを提案する。
まず、テキスト条件のDiTは、人間の設計ワークフローをシミュレートする多相ラスタ化構築青写真を生成する。
第二に、経路重複によるレイヤワイドベクトル化はクリーンで編集可能なSVGを生成する。
画像ベクトル化には,参照画像を潜在トークンに符号化し,構造的整合性を維持しつつ階層的再構成を導く条件拡散機構を導入する。
大規模な実験では、生成品質と編集性の両方において、最適化ベースとニューラルベースラインに対するLayerTracerの優れたパフォーマンスを示し、AI生成ベクターとプロの設計認知を効果的に整合させる。
関連論文リスト
- Segmentation-guided Layer-wise Image Vectorization with Gradient Fills [6.037332707968933]
そこで本稿では,画像を勾配を埋め込んだ簡潔なベクトルグラフに変換するためのセグメンテーション誘導ベクトル化フレームワークを提案する。
組込み勾配認識セグメンテーションの指導により, 段階的に勾配を埋め込んだB'ezierパスを出力に付加する。
論文 参考訳(メタデータ) (2024-08-28T12:08:25Z) - Text-to-Vector Generation with Neural Path Representation [27.949704002538944]
本稿では,シーケンスと画像の両モードから経路潜在空間を学習するニューラルパス表現を提案する。
第1段階では、事前訓練されたテキスト・ツー・イメージ拡散モデルにより、複雑なベクトルグラフィックスの初期生成が導かれる。
第2段階では、レイヤワイズ画像ベクトル化戦略を用いてグラフィクスを洗練し、より明確な要素と構造を実現する。
論文 参考訳(メタデータ) (2024-05-16T17:59:22Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。