論文の概要: DiffBrush:Just Painting the Art by Your Hands
- arxiv url: http://arxiv.org/abs/2502.20904v1
- Date: Fri, 28 Feb 2025 10:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:49.473387
- Title: DiffBrush:Just Painting the Art by Your Hands
- Title(参考訳): DiffBrush: 自分の手でアートを描く
- Authors: Jiaming Chu, Lei Jin, Tao Wang, Junliang Xing, Jian Zhao,
- Abstract要約: 現在のAI絵画エコシステムは、主にテキスト駆動拡散モデル(T2I)に依存している。
DiffBrushはT2Iモデルと互換性があり、ユーザーは画像の描画や編集ができる。
DiffBrushは、潜時とインスタンスレベルの注目マップを継続的に導くことで、画像内のオブジェクトの色、意味、およびインスタンスの制御を実現する。
- 参考スコア(独自算出の注目度): 20.025612157376138
- License:
- Abstract: The rapid development of image generation and editing algorithms in recent years has enabled ordinary user to produce realistic images. However, the current AI painting ecosystem predominantly relies on text-driven diffusion models (T2I), which pose challenges in accurately capturing user requirements. Furthermore, achieving compatibility with other modalities incurs substantial training costs. To this end, we introduce DiffBrush, which is compatible with T2I models and allows users to draw and edit images. By manipulating and adapting the internal representation of the diffusion model, DiffBrush guides the model-generated images to converge towards the user's hand-drawn sketches for user's specific needs without additional training. DiffBrush achieves control over the color, semantic, and instance of objects in images by continuously guiding the latent and instance-level attention map during the denoising process of the diffusion model. Besides, we propose a latent regeneration, which refines the randomly sampled noise in the diffusion model, obtaining a better image generation layout. Finally, users only need to roughly draw the mask of the instance (acceptable colors) on the canvas, DiffBrush can naturally generate the corresponding instance at the corresponding location.
- Abstract(参考訳): 近年,画像生成・編集アルゴリズムの急速な発展により,一般ユーザーが現実的なイメージを作成できるようになった。
しかし、現在のAI絵画エコシステムは、主にテキスト駆動拡散モデル(T2I)に依存しており、ユーザの要求を正確に把握する上での課題を提起している。
さらに、他のモダリティとの互換性を達成するには、かなりの訓練コストがかかる。
この目的のためにDiffBrushを導入する。これはT2Iモデルと互換性があり、ユーザーは画像の描画や編集ができる。
拡散モデルの内部表現を操作および適応することにより、DiffBrushは、モデル生成した画像を、追加のトレーニングなしで、ユーザの特定のニーズに対して手書きのスケッチに収束するようにガイドする。
DiffBrushは、拡散モデルの認知過程において、潜時およびインスタンスレベルの注意マップを継続的に誘導することにより、画像内のオブジェクトの色、意味、およびインスタンスの制御を実現する。
さらに,拡散モデルにおけるランダムサンプリングノイズを改良し,より優れた画像生成レイアウトが得られる潜時再生を提案する。
最後に、ユーザーは、キャンバス上のインスタンスのマスク(許容色)を大まかに描画するだけで、DiffBrushは対応する場所で対応するインスタンスを自然に生成できる。
関連論文リスト
- BD-Diff: Generative Diffusion Model for Image Deblurring on Unknown Domains with Blur-Decoupled Learning [55.21345354747609]
BD-Diffは、未知の領域における劣化性能を高めるために設計された生成拡散モデルである。
構造表現とぼやけたパターン抽出器に2つのQ-Formerを別々に採用する。
構造的特徴とぼやけたパターンを補完する再構成タスクを導入する。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control [4.984382582612786]
PainterNetは様々な拡散モデルに柔軟に埋め込まれるプラグインである。
本稿では,局所的なプロンプト入力,注意制御点(ACP),実際の注意注意損失(ATAL)を提案する。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-02T07:40:47Z) - Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent
Diffusion Models for Virtual Try-All [4.191273360964305]
ディフューズ・トゥ・チョイス(Diffuse to Choose)は、高速推論と高忠実度詳細の保持を効率的にバランスさせる、拡散に基づく新しい塗布モデルである。
Diffuse to Chooseは既存のゼロショット拡散塗装法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T20:25:48Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - DiffGANPaint: Fast Inpainting Using Denoising Diffusion GANs [19.690288425689328]
本稿では,不足画素を高速に充填できるDDPMモデルを提案する。
汎用画像インパインティングデータセットの実験は、我々のアプローチが現代のほとんどの作品に匹敵する、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:50:41Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。