Fugu-MT 論文翻訳(概要): SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation

論文の概要: SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation

arxiv url: http://arxiv.org/abs/2502.08642v1
Date: Wed, 12 Feb 2025 18:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:01.12425
Title: SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation
Title（参考訳）: SwiftSketch: イメージからベクターへのスケッチ生成のための拡散モデル
Authors: Ellie Arar, Yarden Frenkel, Daniel Cohen-Or, Ariel Shamir, Yael Vinker,
Abstract要約: 我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。 SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。 ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
参考スコア（独自算出の注目度）: 57.47730473674261
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in large vision-language models have enabled highly expressive and diverse vector sketch generation. However, state-of-the-art methods rely on a time-consuming optimization process involving repeated feedback from a pretrained model to determine stroke placement. Consequently, despite producing impressive sketches, these methods are limited in practical applications. In this work, we introduce SwiftSketch, a diffusion model for image-conditioned vector sketch generation that can produce high-quality sketches in less than a second. SwiftSketch operates by progressively denoising stroke control points sampled from a Gaussian distribution. Its transformer-decoder architecture is designed to effectively handle the discrete nature of vector representation and capture the inherent global dependencies between strokes. To train SwiftSketch, we construct a synthetic dataset of image-sketch pairs, addressing the limitations of existing sketch datasets, which are often created by non-artists and lack professional quality. For generating these synthetic sketches, we introduce ControlSketch, a method that enhances SDS-based techniques by incorporating precise spatial control through a depth-aware ControlNet. We demonstrate that SwiftSketch generalizes across diverse concepts, efficiently producing sketches that combine high fidelity with a natural and visually appealing style.
Abstract（参考訳）: 大規模視覚言語モデルの最近の進歩は、高度に表現的かつ多様なベクトルスケッチ生成を可能にしている。しかし、最先端の手法は、ストローク配置を決定するために事前訓練されたモデルからの繰り返しフィードバックを含む時間を要する最適化プロセスに依存している。その結果、印象的なスケッチを作成したにもかかわらず、これらの手法は実用的応用に限られている。本研究では,画像条件付きベクトルスケッチ生成のための拡散モデルSwiftSketchを紹介する。 SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。トランス-デコーダアーキテクチャは、ベクトル表現の離散的な性質を効果的に処理し、ストローク間の固有のグローバルな依存関係をキャプチャするために設計されている。 SwiftSketchをトレーニングするために、既存のスケッチデータセットの制限に対処する、画像とスケッチのペアの合成データセットを構築します。合成スケッチを生成するために,Deep-Aware ControlNetを通じて正確な空間制御を組み込むことで,SDSに基づく手法を強化するControlSketchを導入する。我々は、SwiftSketchが様々な概念を一般化し、高い忠実さと自然で視覚的に魅力的なスタイルを組み合わせたスケッチを効率的に作成できることを実証した。

関連論文リスト

SketchAgent: Generating Structured Diagrams from Hand-Drawn Sketches [54.06877048295693]
SketchAgentは手描きスケッチの構造化図への変換を自動化するシステムである。 SketchAgentは、スケッチ認識、シンボリック推論、反復検証を統合し、セマンティックコヒーレントで構造的に正確な図を生成する。ダイアグラム生成プロセスの合理化によって、SketchAgentはデザイン、教育、エンジニアリングの分野で大きな可能性を秘めています。
論文参考訳（メタデータ） (2025-08-02T07:22:51Z)
CoProSketch: Controllable and Progressive Sketch Generation with Diffusion Model [18.5540421907361]
スケッチ編集は、絵画アーティストのためのピクセルレベルのRGB画像編集よりも簡単で直感的であるため、芸術作品の基本的な青写真として機能する。拡散モデルを用いたスケッチ生成のための顕著な制御性と詳細を提供する新しいフレームワークであるCoProSketchを提案する。実験では、ベースラインよりもセマンティックな一貫性と制御性が向上し、ユーザフィードバックを生成モデルに統合するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-04-11T05:11:17Z)
StrokeFusion: Vector Sketch Generation via Joint Stroke-UDF Encoding and Latent Sequence Diffusion [13.862427684807486]
StrokeFusionはベクトルスケッチ生成のための2段階のフレームワークである。デュアルモードのスケッチ機能学習ネットワークがあり、ストロークを高品質の潜伏空間にマッピングする。これは、生成中のストローク位置、スケール、軌道を同時に調整するストロークレベルの潜在拡散モデルを利用する。
論文参考訳（メタデータ） (2025-03-31T06:03:03Z)
Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。 3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文参考訳（メタデータ） (2024-04-02T11:03:24Z)
DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models [33.6615688030998]
DiffSketcherは、自然言語入力を使用してテキストベクトル化されたフリーハンドスケッチを作成する革新的なアルゴリズムである。我々の実験は、DiffSketcherが以前の作業よりも高い品質を実現していることを示している。
論文参考訳（メタデータ） (2023-06-26T13:30:38Z)
Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文参考訳（メタデータ） (2022-11-24T18:45:32Z)
B\'ezierSketch: A generative model for scalable vector sketches [132.5223191478268]
B'ezierSketchは、完全ベクトルスケッチのための新しい生成モデルであり、自動的にスケーラブルで高解像度である。まず,各ストロークを最適なB'ezier曲線に埋め込むようにエンコーダを訓練する。これにより、スケッチをパラマタライズされたストロークの短いシーケンスとして扱うことができ、これにより、より長いスケッチのために、より多くのキャパシティを持つ再帰的なスケッチジェネレータを訓練することができる。
論文参考訳（メタデータ） (2020-07-04T21:30:52Z)
SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文参考訳（メタデータ） (2020-03-05T14:54:10Z)
Sketchformer: Transformer-based Representation for Sketched Structure [12.448155157592895]
Sketchformerは、ベクトル形式で入力された自由ハンドスケッチを符号化するトランスフォーマーベースの表現である。連続的およびトークン化された入力表現を探索するいくつかの変種を報告し、それらの性能を対比する。我々の学習した埋め込みは辞書学習トークン化方式によって駆動され、分類および画像検索タスクにおける技術性能の状態を出力する。
論文参考訳（メタデータ） (2020-02-24T17:11:53Z)
Deep Plastic Surgery: Robust and Controllable Image Editing with Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。 Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文参考訳（メタデータ） (2020-01-09T08:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。