論文の概要: Adaptively-Realistic Image Generation from Stroke and Sketch with
Diffusion Model
- arxiv url: http://arxiv.org/abs/2208.12675v1
- Date: Fri, 26 Aug 2022 13:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:05:24.294947
- Title: Adaptively-Realistic Image Generation from Stroke and Sketch with
Diffusion Model
- Title(参考訳): 拡散モデルによるストロークおよびスケッチからの適応リアリスティック画像生成
- Authors: Shin-I Cheng, Yu-Jie Chen, Wei-Chen Chiu, Hsin-Ying Lee, Hung-Yu Tseng
- Abstract要約: 拡散モデルに基づくスケッチやストロークからの画像合成を3次元制御する統合フレームワークを提案する。
我々のフレームワークは、形状、色、リアリズムを制御したカスタマイズ画像の生成に柔軟性を提供しながら、最先端のパフォーマンスを実現している。
提案手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
- 参考スコア(独自算出の注目度): 31.652827838300915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images from hand-drawings is a crucial and fundamental task in
content creation. The translation is difficult as there exist infinite
possibilities and the different users usually expect different outcomes.
Therefore, we propose a unified framework supporting a three-dimensional
control over the image synthesis from sketches and strokes based on diffusion
models. Users can not only decide the level of faithfulness to the input
strokes and sketches, but also the degree of realism, as the user inputs are
usually not consistent with the real images. Qualitative and quantitative
experiments demonstrate that our framework achieves state-of-the-art
performance while providing flexibility in generating customized images with
control over shape, color, and realism. Moreover, our method unleashes
applications such as editing on real images, generation with partial sketches
and strokes, and multi-domain multi-modal synthesis.
- Abstract(参考訳): 手描きから画像を生成することは、コンテンツ作成において重要かつ基本的なタスクである。
翻訳は無限の可能性があり、異なるユーザーが通常異なる結果を期待するので難しい。
そこで本研究では,拡散モデルに基づくスケッチやストロークからの3次元画像合成制御を支援する統一フレームワークを提案する。
ユーザは、入力されたストロークやスケッチに対する忠実さのレベルを決定するだけでなく、実際の画像とユーザの入力が一致しないため、リアリズムのレベルも決めることができる。
質的かつ定量的な実験により,我々のフレームワークが最先端のパフォーマンスを実現し,形状,色,リアリズムを制御してカスタマイズした画像を生成する際の柔軟性が得られている。
さらに,本手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
関連論文リスト
- VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - VisioBlend: Sketch and Stroke-Guided Denoising Diffusion Probabilistic Model for Realistic Image Generation [0.0]
拡散モデルに基づくスケッチやストロークからの画像合成の3次元制御を支援する統一フレームワークを提案する。
入力ストロークやスケッチに対する忠実度を決定することができる。
これは手書きのスケッチやストロークから新しいデータポイントを合成することで、データ可用性の問題を解決する。
論文 参考訳(メタデータ) (2024-05-15T11:27:27Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Reference-based Image Composition with Sketch via Structure-aware
Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。
スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。
筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文 参考訳(メタデータ) (2023-03-31T06:12:58Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Effect of Instance Normalization on Fine-Grained Control for
Sketch-Based Face Image Generation [17.31312721810532]
手描きスケッチからフォトリアリスティックな顔画像を生成する場合のインスタンス正規化の効果について検討する。
視覚的解析に基づいて、ベースライン画像翻訳モデルにおけるインスタンス正規化層を変更する。
特別にデザインされた11のカテゴリを持つ手描きスケッチの新たなセットを精査し、広範な実験分析を行う。
論文 参考訳(メタデータ) (2022-07-17T04:05:17Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Sketch-Guided Scenery Image Outpainting [83.6612152173028]
本稿では,スケッチ誘導露光を行うエンコーダデコーダに基づくネットワークを提案する。
全体的アライメントモジュールを適用して、合成された部分をグローバルビューの実際のものと類似させる。
第2に, 合成した部分からスケッチを逆向きに生成し, 接地した部分との整合性を奨励する。
論文 参考訳(メタデータ) (2020-06-17T11:34:36Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。