論文の概要: Move Anything with Layered Scene Diffusion
- arxiv url: http://arxiv.org/abs/2404.07178v1
- Date: Wed, 10 Apr 2024 17:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:42:08.035844
- Title: Move Anything with Layered Scene Diffusion
- Title(参考訳): 層状シーン拡散による移動
- Authors: Jiawei Ren, Mengmeng Xu, Jui-Chieh Wu, Ziwei Liu, Tao Xiang, Antoine Toisoul,
- Abstract要約: 拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
- 参考スコア(独自算出の注目度): 77.45870343845492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models generate images with an unprecedented level of quality, but how can we freely rearrange image layouts? Recent works generate controllable scenes via learning spatially disentangled latent codes, but these methods do not apply to diffusion models due to their fixed forward process. In this work, we propose SceneDiffusion to optimize a layered scene representation during the diffusion sampling process. Our key insight is that spatial disentanglement can be obtained by jointly denoising scene renderings at different spatial layouts. Our generated scenes support a wide range of spatial editing operations, including moving, resizing, cloning, and layer-wise appearance editing operations, including object restyling and replacing. Moreover, a scene can be generated conditioned on a reference image, thus enabling object moving for in-the-wild images. Notably, this approach is training-free, compatible with general text-to-image diffusion models, and responsive in less than a second.
- Abstract(参考訳): 拡散モデルは前例のない画質の画像を生成しますが、どのように自由に画像レイアウトを再構成できますか?
近年の研究では、空間的に不整合な潜伏符号を学習することで制御可能なシーンを生成するが、これらの手法は、その固定された前進過程のために拡散モデルには適用されない。
本研究では,拡散サンプリング過程におけるシーン表現の階層化を最適化するSceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、オブジェクトの再構成や置換を含むレイヤワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
さらに、シーンを基準画像に条件付けして生成することができるので、被写体を移動させることが可能である。
特に、このアプローチはトレーニングフリーで、一般的なテキストから画像への拡散モデルと互換性があり、1秒未満で応答する。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators [19.853978560075305]
モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:59:59Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。