論文の概要: StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback
- arxiv url: http://arxiv.org/abs/2510.20093v1
- Date: Thu, 23 Oct 2025 00:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.028401
- Title: StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback
- Title(参考訳): StableSketcher:ビジュアル質問応答フィードバックによる画素ベースのスケッチ生成のための拡散モデルの改善
- Authors: Jiho Park, Sieun Choi, Jaeyoon Seo, Jihie Kim,
- Abstract要約: 本研究では,手書きスケッチを高速に作成するための拡散モデルを実現する新しいフレームワークであるStableSketcherを提案する。
変分オートエンコーダを微調整して潜時デコーディングを最適化し、スケッチの特徴をよりよく捉えます。
並行して、視覚的質問応答に基づく強化学習のための新たな報酬関数を統合し、テキスト画像のアライメントと意味的一貫性を改善した。
- 参考スコア(独自算出の注目度): 4.851573895718146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent advancements in diffusion models have significantly enriched the quality of generated images, challenges remain in synthesizing pixel-based human-drawn sketches, a representative example of abstract expression. To combat these challenges, we propose StableSketcher, a novel framework that empowers diffusion models to generate hand-drawn sketches with high prompt fidelity. Within this framework, we fine-tune the variational autoencoder to optimize latent decoding, enabling it to better capture the characteristics of sketches. In parallel, we integrate a new reward function for reinforcement learning based on visual question answering, which improves text-image alignment and semantic consistency. Extensive experiments demonstrate that StableSketcher generates sketches with improved stylistic fidelity, achieving better alignment with prompts compared to the Stable Diffusion baseline. Additionally, we introduce SketchDUO, to the best of our knowledge, the first dataset comprising instance-level sketches paired with captions and question-answer pairs, thereby addressing the limitations of existing datasets that rely on image-label pairs. Our code and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): 拡散モデルの最近の進歩は生成画像の品質を著しく向上させたが、抽象表現の代表的な例である画素ベースの人物描画スケッチを合成する上での課題は残されている。
これらの課題に対処するために,手書きスケッチを高速に作成するための拡散モデルを実現する新しいフレームワークであるStableSketcherを提案する。
このフレームワーク内では、変分オートエンコーダを微調整して遅延復号を最適化し、スケッチの特徴をより正確に把握する。
並行して、視覚的質問応答に基づく強化学習のための新たな報酬関数を統合し、テキスト画像のアライメントと意味的一貫性を改善した。
広範な実験により、StableSketcherはスタイリスティックな忠実さを改善したスケッチを生成し、Stable Diffusionベースラインよりもプロンプトとの整合性が良くなった。
さらに,SketchDUOを導入することで,画像ラベルのペアに依存する既存のデータセットの制限に対処する,キャプションと質問応答ペアを組み合わせたインスタンスレベルのスケッチからなる最初のデータセットを,私たちの知る限りで紹介する。
私たちのコードとデータセットは、受け入れ次第公開されます。
関連論文リスト
- CoProSketch: Controllable and Progressive Sketch Generation with Diffusion Model [18.5540421907361]
スケッチ編集は、絵画アーティストのためのピクセルレベルのRGB画像編集よりも簡単で直感的であるため、芸術作品の基本的な青写真として機能する。
拡散モデルを用いたスケッチ生成のための顕著な制御性と詳細を提供する新しいフレームワークであるCoProSketchを提案する。
実験では、ベースラインよりもセマンティックな一貫性と制御性が向上し、ユーザフィードバックを生成モデルに統合するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-11T05:11:17Z) - SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches [4.55322003438174]
SketchFlexは空間条件付き画像生成の柔軟性を改善するために設計されたインタラクティブシステムである。
クラウドソースされたオブジェクト属性とリレーションシップによってリッチ化されたセマンティック空間内の合理的な記述でユーザプロンプトを推論する。
ユーザの粗いスケッチをキャニーベースの形状アンカーに洗練し、ユーザ意図の生成品質とアライメントを保証する。
論文 参考訳(メタデータ) (2025-02-11T13:48:11Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。