論文の概要: KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.01595v1
- Date: Fri, 11 Oct 2024 12:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:44:34.886688
- Title: KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models
- Title(参考訳): KnobGen: スケッチベース拡散モデルにおけるアートワークの高度化制御
- Authors: Pouyan Navard, Amin Karimi Monsefi, Mengxi Zhou, Wei-Lun Chao, Alper Yilmaz, Rajiv Ramnath,
- Abstract要約: KnobGenは、スケッチベースの画像生成のためのデュアルパスウェイフレームワークである。
さまざまなレベルのスケッチの複雑さとユーザスキルにシームレスに対応します。
画像の自然な外観を維持しながら、最終的な出力を制御する。
- 参考スコア(独自算出の注目度): 20.426698637554264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have significantly improved text-to-image (T2I) generation, but they often struggle to balance fine-grained precision with high-level control. Methods like ControlNet and T2I-Adapter excel at following sketches by seasoned artists but tend to be overly rigid, replicating unintentional flaws in sketches from novice users. Meanwhile, coarse-grained methods, such as sketch-based abstraction frameworks, offer more accessible input handling but lack the precise control needed for detailed, professional use. To address these limitations, we propose KnobGen, a dual-pathway framework that democratizes sketch-based image generation by seamlessly adapting to varying levels of sketch complexity and user skill. KnobGen uses a Coarse-Grained Controller (CGC) module for high-level semantics and a Fine-Grained Controller (FGC) module for detailed refinement. The relative strength of these two modules can be adjusted through our knob inference mechanism to align with the user's specific needs. These mechanisms ensure that KnobGen can flexibly generate images from both novice sketches and those drawn by seasoned artists. This maintains control over the final output while preserving the natural appearance of the image, as evidenced on the MultiGen-20M dataset and a newly collected sketch dataset.
- Abstract(参考訳): 近年の拡散モデルではテキスト・ツー・イメージ(T2I)生成が大幅に改善されているが、細粒度精度と高レベル制御のバランスをとるのにしばしば苦労している。
ControlNetやT2I-Adapterのような手法は、調味されたアーティストによるスケッチに従うのに優れているが、過度に剛性があり、初心者のスケッチに意図しない欠陥を複製する傾向がある。
一方、スケッチベースの抽象化フレームワークのような粗粒度の粗いメソッドは、よりアクセスしやすい入力処理を提供するが、詳細で専門的な使用に必要な正確な制御は欠いている。
このような制約に対処するため,スケッチベースの画像生成を民主化し,スケッチの複雑さやユーザスキルの異なるレベルにシームレスに適応する,デュアルパスのフレームワークであるKnobGenを提案する。
KnobGenは、高レベルのセマンティクスにはCGC(Coarse-Grained Controller)モジュール、詳細な洗練にはFGC(Final-Grained Controller)モジュールを使用する。
これら2つのモジュールの相対強度は、我々のノブ推論機構によって調整され、ユーザの特定のニーズに合わせることができる。
これらのメカニズムにより、KnobGenは初心者スケッチと味付けアーティストによって描かれたスケッチの両方から、柔軟に画像を生成することができる。
これは、MultiGen-20Mデータセットと新たに収集されたスケッチデータセットに示されているように、画像の自然な外観を維持しながら最終的な出力を制御する。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - Freehand Sketch Generation from Mechanical Components [16.761960706420066]
MSFormerは、機械部品用に調整されたヒューマノイドフリーハンドスケッチを初めて製作した。
第1段階では、機械部品からマルチビューの輪郭スケッチを得るためにOpen CASCADE技術を採用している。
第2段階では、輪郭スケッチをトランスフォーマーベースのジェネレータによるフリーハンドスケッチに変換する。
論文 参考訳(メタデータ) (2024-08-12T07:44:19Z) - Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.50036055679903]
最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。
この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文 参考訳(メタデータ) (2024-06-11T17:59:01Z) - Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation [37.93542778715304]
スケッチ誘導型テキストから3D生成フレームワーク(Sketch2NeRF)を提案し、3D生成にスケッチ制御を追加する。
本手法は,スケッチの類似性やテキストアライメントの観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-01-25T15:49:12Z) - Sketch-Guided Scenery Image Outpainting [83.6612152173028]
本稿では,スケッチ誘導露光を行うエンコーダデコーダに基づくネットワークを提案する。
全体的アライメントモジュールを適用して、合成された部分をグローバルビューの実際のものと類似させる。
第2に, 合成した部分からスケッチを逆向きに生成し, 接地した部分との整合性を奨励する。
論文 参考訳(メタデータ) (2020-06-17T11:34:36Z) - Semi-Supervised StyleGAN for Disentanglement Learning [79.01988132442064]
現在の解離法は、いくつかの固有の制限に直面している。
半教師付き高分解能ディスタングル学習のためのStyleGANに基づく新しいアーキテクチャと損失関数を設計する。
論文 参考訳(メタデータ) (2020-03-06T22:54:46Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。