論文の概要: Geometry-Aware Scene-Consistent Image Generation
- arxiv url: http://arxiv.org/abs/2512.12598v1
- Date: Sun, 14 Dec 2025 08:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.339113
- Title: Geometry-Aware Scene-Consistent Image Generation
- Title(参考訳): 幾何学的環境に配慮した画像生成
- Authors: Cong Xie, Che Wang, Yan Zhang, Zheng Pan, Han Zou, Zhenpeng Zhan,
- Abstract要約: 幾何学的認識型シーン一貫性画像生成法について検討する。
目的は、基準シーンと同じ物理的環境を保存する出力画像を合成することである。
i) 多様な幾何学的グラウンドのトレーニングペアを生成するシーン一貫性のあるデータ構築パイプライン,(ii) 幾何誘導型アテンションロスという,2つの重要なコントリビューションを紹介した。
- 参考スコア(独自算出の注目度): 14.644679152141904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study geometry-aware scene-consistent image generation: given a reference scene image and a text condition specifying an entity to be generated in the scene and its spatial relation to the scene, the goal is to synthesize an output image that preserves the same physical environment as the reference scene while correctly generating the entity according to the spatial relation described in the text. Existing methods struggle to balance scene preservation with prompt adherence: they either replicate the scene with high fidelity but poor responsiveness to the prompt, or prioritize prompt compliance at the expense of scene consistency. To resolve this trade-off, we introduce two key contributions: (i) a scene-consistent data construction pipeline that generates diverse, geometrically-grounded training pairs, and (ii) a novel geometry-guided attention loss that leverages cross-view cues to regularize the model's spatial reasoning. Experiments on our scene-consistent benchmark show that our approach achieves better scene alignment and text-image consistency than state-of-the-art baselines, according to both automatic metrics and human preference studies. Our method produces geometrically coherent images with diverse compositions that remain faithful to the textual instructions and the underlying scene structure.
- Abstract(参考訳): 本研究の目的は、シーンに生成するエンティティと、シーンと空間的関係を規定する参照シーン画像およびテキスト条件が与えられた場合、テキストに記述された空間的関係に応じて、エンティティを正しく生成しつつ、参照シーンと同じ物理的環境を保存する出力イメージを合成することである。
既存の方法では、シーンの保存と即時順守のバランスをとるのに苦労しており、高い忠実さでシーンを再現するが、プロンプトに対する応答性が低いか、シーンの一貫性を犠牲にして即時順守を優先するかのいずれかである。
このトレードオフを解決するために,2つの重要なコントリビューションを紹介します。
一 様々で幾何的に接地した訓練ペアを生成するシーン一貫性のあるデータ構築パイプライン及び
(II) 空間的推論の規則化にクロスビュー・キューを活用する新しい幾何学誘導型アテンションロス。
自動計測と人選好の両面から,本手法は現状のベースラインよりもシーンアライメントとテキストイメージの整合性が向上することを示す。
本手法は,テクストの指示や背景となるシーン構造に忠実な多様な構成の幾何学的コヒーレントな画像を生成する。
関連論文リスト
- LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning [18.207887244259897]
現実的な多目的シーンを設計するには、意味的関係と物理的妥当性を尊重する空間的レイアウトを計画する必要がある。
レイアウト生成のための構成拡散を伴う視覚言語推論を統一するエージェントフレームワークであるLayoutAgentを提案する。
提案手法はまず視覚言語モデルを用いて,セグメント化,オブジェクトサイズ推定,シーングラフ構築,即時書き換えによる入力の事前処理を行う。
最後に、前景条件の画像生成装置は、設計されたプロンプトで案内された計画されたレイアウトにオブジェクトをレンダリングすることで、完全なシーンを構成する。
論文 参考訳(メタデータ) (2025-09-24T20:41:04Z) - Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models [20.508585767918916]
本研究では,その背景となるシーンについて豊富な情報を提供する固有シーン特性を活用する。
提案手法は,画像とそれに対応する内在性の両方を共同生成し,その基盤となるシーン構造を暗黙的に捉えることを目的としている。
実験により,提案手法は空間的不整合を補正し,より自然なシーンレイアウトを生成することを示した。
論文 参考訳(メタデータ) (2025-08-14T06:26:36Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。