論文の概要: LooseControl: Lifting ControlNet for Generalized Depth Conditioning
- arxiv url: http://arxiv.org/abs/2312.03079v1
- Date: Tue, 5 Dec 2023 19:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:04:09.637641
- Title: LooseControl: Lifting ControlNet for Generalized Depth Conditioning
- Title(参考訳): LooseControl: 汎用深度コンディショニングのためのリフティング制御ネット
- Authors: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
- Abstract要約: 拡散に基づく画像生成のための一般化深度条件付けを可能にするLooseControlを提案する。
深度条件付き画像生成のためのSOTAであるControlNetは、顕著な結果をもたらすが、ガイダンスのための詳細な深度マップへのアクセスに依存している。
E1)3Dボックス編集により、画像のスタイルを凍結しながら、ボックスを変更、追加、削除することで、画像の精細化が可能になる。
- 参考スコア(独自算出の注目度): 73.80576622192402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .
- Abstract(参考訳): 拡散画像生成のための一般化深度条件付けを可能にするLooseControlを提案する。
深度条件付き画像生成のためのSOTAであるControlNetは、顕著な結果をもたらすが、ガイダンスのための詳細な深度マップへのアクセスに依存する。
このような正確な深度マップを作成することは、多くのシナリオにおいて難しい。
本稿では,多くの新しいコンテンツ作成ワークフローを実現する深層コンディショニングの一般化版を提案する。
具体的には、(c1)シーン境界制御により、境界条件だけでシーンをゆるやかに指定でき、(c2) オブジェクトの正確な形状や外観ではなく、対象オブジェクトのレイアウト位置を特定する3dボックス制御が可能となる。
LooseControlを使用して、ユーザーはテキストガイダンスとともに、シーン境界とプライマリオブジェクトの位置のみを指定することで、複雑な環境(部屋、ストリートビューなど)を作成することができる。
e1) 3dボックス編集により、画像のスタイルを凍結しながら、ボックスを変更したり、追加したり、削除したりすることで、画像を洗練することができる。
これにより、編集されたボックスによって誘導される変更とは別に、最小限の変更が得られる。
(E2)
属性編集は、全体のオブジェクト密度や特定のオブジェクトなど、シーンの特定の側面を変更することができる編集方向を提案する。
大規模試験とベースラインとの比較により,本手法の汎用性を示した。
LooseControlは複雑な環境を簡単に作成し、他の形式のガイダンスチャネルに拡張するための重要な設計ツールになるだろうと考えています。
コードと詳細はhttps://shariqfarooq123.github.io/loose-control/で確認できる。
関連論文リスト
- Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation [44.18315132571804]
インタラクティブな3次元レイアウト制御によるテキスト・ツー・イメージ(T2I)生成のための拡散型アプローチを提案する。
レイアウト制御に使用される従来の2Dボックスを3Dボックスに置き換える。
我々は,T2Iタスクを多段階生成プロセスとして再設計し,各段階において,オブジェクトを初期から保存しながら3次元に挿入,変更,移動することが可能となる。
論文 参考訳(メタデータ) (2024-08-27T07:01:56Z) - SIn-NeRF2NeRF: Editing 3D Scenes with Instructions through Segmentation and Inpainting [0.3119157043062931]
Instruct-NeRF2NeRF(in2n)は、テキストプロンプトを用いてNeRF(Neural Radiance Field)からなる3Dシーンの編集を可能にする有望な方法である。
本研究では,3次元シーン内におけるオブジェクトの幾何学的変化を,シーンから分離したオブジェクトを選択的に編集することで実現する。
論文 参考訳(メタデータ) (2024-08-23T02:20:42Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。