論文の概要: Sketch-Guided Scene Image Generation
- arxiv url: http://arxiv.org/abs/2407.06469v1
- Date: Tue, 9 Jul 2024 00:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.548273
- Title: Sketch-Guided Scene Image Generation
- Title(参考訳): スケッチガイドによるシーン画像生成
- Authors: Tianyu Zhang, Xiaoxuan Xie, Xusheng Du, Haoran Xie,
- Abstract要約: スケッチ入力からシーン画像を生成するタスクを分解したスケッチ誘導シーン画像生成フレームワークを提案する。
事前学習した拡散モデルを用いて、個々のオブジェクトの描画をオブジェクトのイメージに変換し、余分なスケッチ構造を維持しながら追加の詳細を推測する。
シーンレベルの画像構築において、分離した背景プロンプトを用いてシーン画像の潜在表現を生成する。
- 参考スコア(独自算出の注目度): 11.009579131371018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models are showcasing the impressive ability to create high-quality and diverse generative images. Nevertheless, the transition from freehand sketches to complex scene images remains challenging using diffusion models. In this study, we propose a novel sketch-guided scene image generation framework, decomposing the task of scene image scene generation from sketch inputs into object-level cross-domain generation and scene-level image construction. We employ pre-trained diffusion models to convert each single object drawing into an image of the object, inferring additional details while maintaining the sparse sketch structure. In order to maintain the conceptual fidelity of the foreground during scene generation, we invert the visual features of object images into identity embeddings for scene generation. In scene-level image construction, we generate the latent representation of the scene image using the separated background prompts, and then blend the generated foreground objects according to the layout of the sketch input. To ensure the foreground objects' details remain unchanged while naturally composing the scene image, we infer the scene image on the blended latent representation using a global prompt that includes the trained identity tokens. Through qualitative and quantitative experiments, we demonstrate the ability of the proposed approach to generate scene images from hand-drawn sketches surpasses the state-of-the-art approaches.
- Abstract(参考訳): テキスト・ツー・イメージのモデルは、高品質で多様な生成画像を作成できる素晴らしい能力を示している。
それでも、フリーハンドスケッチから複雑なシーンイメージへの移行は、拡散モデルを用いて難しいままである。
本研究では,スケッチ入力からオブジェクトレベルのクロスドメイン生成やシーンレベルの画像構築に至るまでのシーン画像生成のタスクを分解する,新しいスケッチ誘導シーン画像生成フレームワークを提案する。
事前学習した拡散モデルを用いて、個々のオブジェクトの描画をオブジェクトのイメージに変換し、余分なスケッチ構造を維持しながら追加の詳細を推測する。
シーン生成における前景の概念的忠実性を維持するため,オブジェクト画像の視覚的特徴をシーン生成のためのアイデンティティ埋め込みに変換する。
シーンレベルの画像構築において、分離した背景プロンプトを用いてシーンイメージの潜在表現を生成し、スケッチ入力のレイアウトに応じて生成された前景オブジェクトをブレンドする。
シーンイメージを自然に構成しながら、前景オブジェクトの細部が変化しないよう、トレーニングされたIDトークンを含むグローバルプロンプトを用いて、ブレンドされた潜在表現上のシーンイメージを推論する。
定性的かつ定量的な実験を通じて,手描きスケッチからシーン画像を生成する手法が,最先端のアプローチを超越することを示す。
関連論文リスト
- Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - Unsupervised Compositional Concepts Discovery with Text-to-Image
Generative Models [80.75258849913574]
本稿では、異なる画像の集合を考えると、各画像を表す生成概念を発見できるかという逆問題を考える。
本稿では,画像の集合から生成概念を抽出し,絵画やオブジェクト,キッチンシーンからの照明から異なる美術スタイルを分離し,イメージネット画像から得られる画像クラスを発見するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:02:15Z) - Text-Guided Scene Sketch-to-Photo Synthesis [5.431298869139175]
テキストガイダンスを用いたシーンレベルのスケッチ・ツー・フォト合成手法を提案する。
モデルのトレーニングには,写真の集合から自己教師付き学習を用いる。
実験により,カラー画像から抽出されていないオリジナルスケッチ画像を視覚的品質の高い写真に変換することを確認した。
論文 参考訳(メタデータ) (2023-02-14T08:13:36Z) - Scene Designer: a Unified Model for Scene Search and Synthesis from
Sketch [7.719705312172286]
シーンデザイナ(Scene Designer)は、シーン構成の自由なスケッチを用いて画像の検索と生成を行う新しい方法である。
我々のコアコントリビューションは、画像に一致するスケッチされた合成のためのクロスモーダル検索埋め込みと、レイアウト合成のためのオブジェクト埋め込みの両方を学ぶための単一の統一モデルである。
論文 参考訳(メタデータ) (2021-08-16T21:40:16Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Semantic-Guided Inpainting Network for Complex Urban Scenes Manipulation [19.657440527538547]
本研究では,ユーザが指定した画像の一部を取り除き,複雑な都市景観を再現する新しいディープラーニングモデルを提案する。
画像のインペイントに関する最近の研究に触発されて,提案手法はセマンティックセグメンテーションを利用して画像の内容と構造をモデル化する。
信頼性の高い結果を生成するために,セマンティックセグメンテーションと生成タスクを組み合わせた新しいデコーダブロックを設計する。
論文 参考訳(メタデータ) (2020-10-19T09:17:17Z) - SketchEmbedNet: Learning Novel Concepts by Imitating Drawings [125.45799722437478]
モデルを用いて画像のスケッチを作成することによって学習した画像表現の特性について検討する。
この生成型クラスに依存しないモデルでは,新規な例,クラス,さらには新規なデータセットからの画像の情報埋め込みが,数ショットで生成されることが示されている。
論文 参考訳(メタデータ) (2020-08-27T16:43:28Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。