論文の概要: Compositional Image Decomposition with Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.19298v1
- Date: Thu, 27 Jun 2024 16:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:28:34.986037
- Title: Compositional Image Decomposition with Diffusion Models
- Title(参考訳): 拡散モデルを用いた合成画像分解
- Authors: Jocelin Su, Nan Liu, Yanbo Wang, Joshua B. Tenenbaum, Yilun Du,
- Abstract要約: 本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは、イメージ内の異なるコンポーネントのセットを推論する教師なしの手法である。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
- 参考スコア(独自算出の注目度): 70.07406583580591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an image of a natural scene, we are able to quickly decompose it into a set of components such as objects, lighting, shadows, and foreground. We can then envision a scene where we combine certain components with those from other images, for instance a set of objects from our bedroom and animals from a zoo under the lighting conditions of a forest, even if we have never encountered such a scene before. In this paper, we present a method to decompose an image into such compositional components. Our approach, Decomp Diffusion, is an unsupervised method which, when given a single image, infers a set of different components in the image, each represented by a diffusion model. We demonstrate how components can capture different factors of the scene, ranging from global scene descriptors like shadows or facial expression to local scene descriptors like constituent objects. We further illustrate how inferred factors can be flexibly composed, even with factors inferred from other models, to generate a variety of scenes sharply different than those seen in training time. Website and code at https://energy-based-model.github.io/decomp-diffusion.
- Abstract(参考訳): 自然のシーンのイメージが与えられたら、オブジェクト、照明、影、前景などのコンポーネントに素早く分解することができます。
すると私たちは、ある部品を他の画像のものと組み合わせるシーンを想像できます。例えば、寝室のオブジェクトや、森の照明条件下で動物園の動物などです。
本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは教師なしの手法であり、単一の画像が与えられると、拡散モデルによって表現される画像内の異なる成分の集合を推論する。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
さらに、他のモデルから推定された因子を柔軟に構成して、トレーニング時間と大きく異なる様々なシーンを生成する方法について述べる。
https://energy-based-model.github.io/decomp-diffusion
関連論文リスト
- Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Crafting Parts for Expressive Object Composition [37.791770942390485]
PartCraftは、ベーステキストプロンプト内のオブジェクトに指定されたきめ細かい部分レベルの詳細に基づいた画像生成を可能にする。
PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行する。
論文 参考訳(メタデータ) (2024-06-14T17:31:29Z) - Neural Gaffer: Relighting Any Object via Diffusion [43.87941408722868]
我々はニューラル・ギャファーと呼ばれる新しいエンドツーエンドの2次元ライティング拡散モデルを提案する。
我々のモデルは、任意の物体の1つの画像を取り、新しい照明条件下で、正確で高品質な信頼された画像を合成することができる。
本稿では,インターネット画像の総合化と精度の両面からモデルを評価し,その利点を一般化と精度の両面から示す。
論文 参考訳(メタデータ) (2024-06-11T17:50:15Z) - Factorized Diffusion: Perceptual Illusions by Noise Decomposition [15.977340635967018]
拡散モデルサンプリングにより各成分を制御するゼロショット法を提案する。
そこで本手法は, コンポジション生成と空間制御に対する事前のアプローチを復元する。
実画像からハイブリッド画像を生成するために,我々のアプローチを拡張できることが示される。
論文 参考訳(メタデータ) (2024-04-17T17:59:59Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。