論文の概要: DiffSketcher: Text Guided Vector Sketch Synthesis through Latent
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.14685v2
- Date: Tue, 15 Aug 2023 03:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 16:19:10.288770
- Title: DiffSketcher: Text Guided Vector Sketch Synthesis through Latent
Diffusion Models
- Title(参考訳): DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成
- Authors: Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu
- Abstract要約: DiffSketcherは、自然言語入力を用いてベクトル化されたフリーハンドスケッチを作成する革新的なアルゴリズムである。
我々の実験は、DiffSketcherが以前の作業よりも高い品質を実現していることを示している。
- 参考スコア(独自算出の注目度): 33.6615688030998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though trained mainly on images, we discover that pretrained diffusion
models show impressive power in guiding sketch synthesis. In this paper, we
present DiffSketcher, an innovative algorithm that creates vectorized free-hand
sketches using natural language input. DiffSketcher is developed based on a
pre-trained text-to-image diffusion model. It performs the task by directly
optimizing a set of Bezier curves with an extended version of the score
distillation sampling (SDS) loss, which allows us to use a raster-level
diffusion model as a prior for optimizing a parametric vectorized sketch
generator. Furthermore, we explore attention maps embedded in the diffusion
model for effective stroke initialization to speed up the generation process.
The generated sketches demonstrate multiple levels of abstraction while
maintaining recognizability, underlying structure, and essential visual details
of the subject drawn. Our experiments show that DiffSketcher achieves greater
quality than prior work.
- Abstract(参考訳): 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。
本稿では,自然言語入力を用いたベクトル化自由ハンドスケッチを作成する革新的なアルゴリズムdiffsketcherを提案する。
diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。
スコア蒸留サンプリング(sds)損失の延長バージョンでベジエ曲線のセットを直接最適化することにより、パラメトリックベクトル化スケッチ生成器の最適化に先立ってラスターレベルの拡散モデルを用いることができる。
さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。
生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。
私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。
関連論文リスト
- Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Representative Feature Extraction During Diffusion Process for Sketch
Extraction with One Example [6.520083224801834]
DiffSketchは、画像から様々なスタイル化されたスケッチを生成する方法である。
提案手法は,事前学習した拡散モデル内での深部特徴の豊かな意味論から代表的特徴を選択することに焦点を当てる。
論文 参考訳(メタデータ) (2024-01-09T05:22:15Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - B\'ezierSketch: A generative model for scalable vector sketches [132.5223191478268]
B'ezierSketchは、完全ベクトルスケッチのための新しい生成モデルであり、自動的にスケーラブルで高解像度である。
まず,各ストロークを最適なB'ezier曲線に埋め込むようにエンコーダを訓練する。
これにより、スケッチをパラマタライズされたストロークの短いシーケンスとして扱うことができ、これにより、より長いスケッチのために、より多くのキャパシティを持つ再帰的なスケッチジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2020-07-04T21:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。