論文の概要: StrokeFusion: Vector Sketch Generation via Joint Stroke-UDF Encoding and Latent Sequence Diffusion
- arxiv url: http://arxiv.org/abs/2503.23752v1
- Date: Mon, 31 Mar 2025 06:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:33:41.950984
- Title: StrokeFusion: Vector Sketch Generation via Joint Stroke-UDF Encoding and Latent Sequence Diffusion
- Title(参考訳): ストロークフュージョン:ジョイントストロークUDFエンコーディングと潜時シーケンス拡散によるベクトルスケッチ生成
- Authors: Jin Zhou, Yi Zhou, Pengfei Xu, Hui Huang,
- Abstract要約: StrokeFusionはベクトルスケッチ生成のための2段階のフレームワークである。
デュアルモードのスケッチ機能学習ネットワークがあり、ストロークを高品質の潜伏空間にマッピングする。
これは、生成中のストローク位置、スケール、軌道を同時に調整するストロークレベルの潜在拡散モデルを利用する。
- 参考スコア(独自算出の注目度): 13.862427684807486
- License:
- Abstract: In the field of sketch generation, raster-format trained models often produce non-stroke artifacts, while vector-format trained models typically lack a holistic understanding of sketches, leading to compromised recognizability. Moreover, existing methods struggle to extract common features from similar elements (e.g., eyes of animals) appearing at varying positions across sketches. To address these challenges, we propose StrokeFusion, a two-stage framework for vector sketch generation. It contains a dual-modal sketch feature learning network that maps strokes into a high-quality latent space. This network decomposes sketches into normalized strokes and jointly encodes stroke sequences with Unsigned Distance Function (UDF) maps, representing sketches as sets of stroke feature vectors. Building upon this representation, our framework exploits a stroke-level latent diffusion model that simultaneously adjusts stroke position, scale, and trajectory during generation. This enables high-fidelity sketch generation while supporting stroke interpolation editing. Extensive experiments on the QuickDraw dataset demonstrate that our framework outperforms state-of-the-art techniques, validating its effectiveness in preserving structural integrity and semantic features. Code and models will be made publicly available upon publication.
- Abstract(参考訳): スケッチ生成の分野では、ラスター形式の訓練されたモデルは、しばしば非ストロークなアーティファクトを生成するが、ベクトル形式の訓練されたモデルは通常、スケッチの全体的理解を欠いているため、認識可能性が損なわれる。
また、既存の手法では、似通った要素(例えば動物の目)から共通の特徴を引き出すのに苦労している。
これらの課題に対処するため,ベクトルスケッチ生成のための2段階フレームワークであるStrokeFusionを提案する。
デュアルモードのスケッチ機能学習ネットワークがあり、ストロークを高品質の潜伏空間にマッピングする。
このネットワークはスケッチを正規化されたストロークに分解し、ストロークシーケンスをUnsigned Distance Function (UDF) マップと共同でエンコードし、スケッチをストローク特徴ベクトルの集合として表現する。
この表現に基づいて,脳卒中位置,スケール,軌道を同時に調整する脳卒中レベルの潜伏拡散モデルを利用する。
これにより、ストローク補間編集をサポートしながら、高忠実なスケッチ生成が可能になる。
QuickDrawデータセットの大規模な実験により、我々のフレームワークは最先端技術よりも優れており、構造的整合性とセマンティックな特徴を維持する上での有効性が検証されている。
コードとモデルは公開時に公開される。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - VQ-SGen: A Vector Quantized Stroke Representation for Creative Sketch Generation [12.486307321835909]
VQ-SGenは高品質なクリエイティブスケッチ生成のための新しいアルゴリズムである。
細かなスケッチ生成のためのベクトル量子化(VQ)ストローク表現を提案する。
提案手法はCreativeSketchデータセット上の既存の最先端技術を上回る。
論文 参考訳(メタデータ) (2024-11-25T14:51:22Z) - Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - Bridging the Gap: Sketch-Aware Interpolation Network for High-Quality Animation Sketch Inbetweening [58.09847349781176]
我々は,新しい深層学習手法であるSketch-Aware Interpolation Network (SAIN)を提案する。
このアプローチには、領域レベルの対応、ストロークレベルの対応、ピクセルレベルのダイナミクスを定式化するマルチレベルガイダンスが組み込まれている。
マルチストリームのU-Transformerは、自己/クロスアテンション機構の統合により、これらのマルチレベルガイドを使用して、スケッチ間のインテンションパターンを特徴付けるように設計されている。
論文 参考訳(メタデータ) (2023-08-25T09:51:03Z) - DiffFaceSketch: High-Fidelity Face Image Synthesis with Sketch-Guided
Latent Diffusion Model [8.1818090854822]
我々は,Sketch-Guided Latent Diffusion Model (SGLDM)を紹介した。
SGLDMは、さまざまな抽象レベルのスケッチから、異なる表情、顔のアクセサリー、ヘアスタイルで高品質な顔画像を合成することができる。
論文 参考訳(メタデータ) (2023-02-14T08:51:47Z) - On Learning Semantic Representations for Million-Scale Free-Hand
Sketches [146.52892067335128]
百万のフリーハンドスケッチのための学習意味表現について研究する。
スケッチを表現するために,デュアルブランチCNNRNNネットワークアーキテクチャを提案する。
ハッシュ検索とゼロショット認識におけるスケッチ指向の意味表現の学習について検討する。
論文 参考訳(メタデータ) (2020-07-07T15:23:22Z) - B\'ezierSketch: A generative model for scalable vector sketches [132.5223191478268]
B'ezierSketchは、完全ベクトルスケッチのための新しい生成モデルであり、自動的にスケーラブルで高解像度である。
まず,各ストロークを最適なB'ezier曲線に埋め込むようにエンコーダを訓練する。
これにより、スケッチをパラマタライズされたストロークの短いシーケンスとして扱うことができ、これにより、より長いスケッチのために、より多くのキャパシティを持つ再帰的なスケッチジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2020-07-04T21:30:52Z) - CoSE: Compositional Stroke Embeddings [52.529172734044664]
本稿では、ストロークベースの描画タスクのような複雑な自由形式構造に対する生成モデルを提案する。
我々のアプローチは、自動補完図のようなインタラクティブなユースケースに適している。
論文 参考訳(メタデータ) (2020-06-17T15:22:54Z) - Sketchformer: Transformer-based Representation for Sketched Structure [12.448155157592895]
Sketchformerは、ベクトル形式で入力された自由ハンドスケッチを符号化するトランスフォーマーベースの表現である。
連続的およびトークン化された入力表現を探索するいくつかの変種を報告し、それらの性能を対比する。
我々の学習した埋め込みは辞書学習トークン化方式によって駆動され、分類および画像検索タスクにおける技術性能の状態を出力する。
論文 参考訳(メタデータ) (2020-02-24T17:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。