論文の概要: Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.10382v1
- Date: Thu, 14 Aug 2025 06:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.200527
- Title: Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models
- Title(参考訳): 空間的に一貫性のある画像生成に向けて--拡散モデルに固有のシーン特性を取り入れて-
- Authors: Hyundo Lee, Suhyung Choi, Byoung-Tak Zhang, Inwoo Hwang,
- Abstract要約: 本研究では,その背景となるシーンについて豊富な情報を提供する固有シーン特性を活用する。
提案手法は,画像とそれに対応する内在性の両方を共同生成し,その基盤となるシーン構造を暗黙的に捉えることを目的としている。
実験により,提案手法は空間的不整合を補正し,より自然なシーンレイアウトを生成することを示した。
- 参考スコア(独自算出の注目度): 20.508585767918916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation models trained on large datasets can synthesize high-quality images but often produce spatially inconsistent and distorted images due to limited information about the underlying structures and spatial layouts. In this work, we leverage intrinsic scene properties (e.g., depth, segmentation maps) that provide rich information about the underlying scene, unlike prior approaches that solely rely on image-text pairs or use intrinsics as conditional inputs. Our approach aims to co-generate both images and their corresponding intrinsics, enabling the model to implicitly capture the underlying scene structure and generate more spatially consistent and realistic images. Specifically, we first extract rich intrinsic scene properties from a large image dataset with pre-trained estimators, eliminating the need for additional scene information or explicit 3D representations. We then aggregate various intrinsic scene properties into a single latent variable using an autoencoder. Building upon pre-trained large-scale Latent Diffusion Models (LDMs), our method simultaneously denoises the image and intrinsic domains by carefully sharing mutual information so that the image and intrinsic reflect each other without degrading image quality. Experimental results demonstrate that our method corrects spatial inconsistencies and produces a more natural layout of scenes while maintaining the fidelity and textual alignment of the base model (e.g., Stable Diffusion).
- Abstract(参考訳): 大規模なデータセットでトレーニングされた画像生成モデルは、高品質な画像を合成することができるが、基礎となる構造や空間配置に関する情報が限られているため、しばしば空間的に一貫性のない、歪んだ画像を生成する。
本研究では,画像とテキストのペアにのみ依存する従来のアプローチや条件入力として固有のシーン特性(例えば深度,セグメンテーションマップ)を活用し,背景シーンに関する豊富な情報を提供する。
提案手法は,画像とそれに対応する内在性の両方を共同生成し,その基盤となるシーン構造を暗黙的に捉え,より空間的に一貫したリアルな画像を生成することを目的とする。
具体的には,まず,事前学習した推定器を用いた大規模画像データセットから固有シーン特性を抽出し,付加的なシーン情報や明示的な3D表現の必要性を排除した。
次に、オートエンコーダを用いて、様々な固有のシーン特性を1つの潜在変数に集約する。
学習済みの大規模潜伏拡散モデル(LDM)に基づいて、画像と内在領域を慎重に共有することにより、画像品質を劣化させることなく、画像と内在領域が相互に反映されるように、画像と内在領域を同時に認知する。
実験により,本手法は空間的不整合を補正し,より自然なシーンレイアウトを生成するとともに,ベースモデルの忠実度とテキストアライメント(安定拡散など)を維持できることを示した。
関連論文リスト
- Uncertainty-Aware Diffusion Guided Refinement of 3D Scenes [34.19578921335553]
1枚の画像から3Dシーンを再構築することは、問題の本質が過小評価されているため、基本的に不適切な作業である。
本研究では,既存の画像から3D画像へのフィードフォワードネットワークにおいて,これらの制約に対処する。
入力画像の視界を超えた情報不足による性能低下を軽減するため、事前学習された潜伏映像拡散モデルを用いて、強い生成前を活用できる。
論文 参考訳(メタデータ) (2025-03-19T23:14:27Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。