Fugu-MT 論文翻訳(概要): DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models

論文の概要: DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2306.14685v2
Date: Tue, 15 Aug 2023 03:57:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 16:19:10.288770
Title: DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
Title（参考訳）: DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成
Authors: Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu
Abstract要約: DiffSketcherは、自然言語入力を用いてベクトル化されたフリーハンドスケッチを作成する革新的なアルゴリズムである。我々の実験は、DiffSketcherが以前の作業よりも高い品質を実現していることを示している。
参考スコア（独自算出の注目度）: 33.6615688030998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates vectorized free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work.
Abstract（参考訳）: 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。本稿では,自然言語入力を用いたベクトル化自由ハンドスケッチを作成する革新的なアルゴリズムdiffsketcherを提案する。 diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。スコア蒸留サンプリング(sds)損失の延長バージョンでベジエ曲線のセットを直接最適化することにより、パラメトリックベクトル化スケッチ生成器の最適化に先立ってラスターレベルの拡散モデルを用いることができる。さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。

関連論文リスト

CoProSketch: Controllable and Progressive Sketch Generation with Diffusion Model [18.5540421907361]
スケッチ編集は、絵画アーティストのためのピクセルレベルのRGB画像編集よりも簡単で直感的であるため、芸術作品の基本的な青写真として機能する。拡散モデルを用いたスケッチ生成のための顕著な制御性と詳細を提供する新しいフレームワークであるCoProSketchを提案する。実験では、ベースラインよりもセマンティックな一貫性と制御性が向上し、ユーザフィードバックを生成モデルに統合するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-04-11T05:11:17Z)
SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。 SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。 ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文参考訳（メタデータ） (2025-02-12T18:57:12Z)
Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文参考訳（メタデータ） (2024-06-02T06:36:46Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Representative Feature Extraction During Diffusion Process for Sketch Extraction with One Example [6.520083224801834]
DiffSketchは、画像から様々なスタイル化されたスケッチを生成する方法である。提案手法は,事前学習した拡散モデル内での深部特徴の豊かな意味論から代表的特徴を選択することに焦点を当てる。
論文参考訳（メタデータ） (2024-01-09T05:22:15Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。 AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文参考訳（メタデータ） (2023-10-05T17:59:18Z)
Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文参考訳（メタデータ） (2022-11-24T18:45:32Z)
B\'ezierSketch: A generative model for scalable vector sketches [132.5223191478268]
B'ezierSketchは、完全ベクトルスケッチのための新しい生成モデルであり、自動的にスケーラブルで高解像度である。まず,各ストロークを最適なB'ezier曲線に埋め込むようにエンコーダを訓練する。これにより、スケッチをパラマタライズされたストロークの短いシーケンスとして扱うことができ、これにより、より長いスケッチのために、より多くのキャパシティを持つ再帰的なスケッチジェネレータを訓練することができる。
論文参考訳（メタデータ） (2020-07-04T21:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。