論文の概要: POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion
- arxiv url: http://arxiv.org/abs/2601.14056v1
- Date: Tue, 20 Jan 2026 15:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.379318
- Title: POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion
- Title(参考訳): POCI-Diff:3次元レイアウト誘導拡散と連続かつ対話的に位置オブジェクト
- Authors: Andrea Rigo, Luca Stornaiuolo, Weijie Wang, Mauro Martino, Bruno Lepri, Nicu Sebe,
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
連続的かつインタラクティブな位置決めのためのフレームワーク(POCI-Diff)を導入する。
本手法は,個々のテキスト記述を特定の3次元境界ボックスに結合することで,オブジェクトごとのセマンティック制御を可能にする。
- 参考スコア(独自算出の注目度): 46.97254555348757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a diffusion-based approach for Text-to-Image (T2I) generation with consistent and interactive 3D layout control and editing. While prior methods improve spatial adherence using 2D cues or iterative copy-warp-paste strategies, they often distort object geometry and fail to preserve consistency across edits. To address these limitations, we introduce a framework for Positioning Objects Consistently and Interactively (POCI-Diff), a novel formulation for jointly enforcing 3D geometric constraints and instance-level semantic binding within a unified diffusion process. Our method enables explicit per-object semantic control by binding individual text descriptions to specific 3D bounding boxes through Blended Latent Diffusion, allowing one-shot synthesis of complex multi-object scenes. We further propose a warping-free generative editing pipeline that supports object insertion, removal, and transformation via regeneration rather than pixel deformation. To preserve object identity and consistency across edits, we condition the diffusion process on reference images using IP-Adapter, enabling coherent object appearance throughout interactive 3D editing while maintaining global scene coherence. Experimental results demonstrate that POCI-Diff produces high-quality images consistent with the specified 3D layouts and edits, outperforming state-of-the-art methods in both visual fidelity and layout adherence while eliminating warping-induced geometric artifacts.
- Abstract(参考訳): 本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
従来の手法は2次元のキューや反復的なコピーワープ・ペースト戦略を用いて空間的定着性を改善するが、オブジェクトの幾何学を歪曲し、編集の一貫性を維持するのに失敗することが多い。
これらの制約に対処するために,3次元幾何学的制約と統一拡散過程におけるインスタンスレベルのセマンティックバインディングを共同で実施するための新しい定式化であるPoCI-Diff(Consistently and Interactively)を導入した。
本手法は,Blended Latent Diffusionにより,個々のテキスト記述を特定の3次元境界ボックスに結合することで,複雑な多目的シーンのワンショット合成を可能にする。
さらに, 画素変形ではなく, オブジェクト挿入, 削除, 再生による変換をサポートする, ワーピングフリーな生成編集パイプラインを提案する。
編集間のオブジェクトの同一性と一貫性を維持するため,IP-Adapterを用いて参照画像に拡散処理を条件とし,グローバルなシーンコヒーレンスを維持しつつ,インタラクティブな3D編集を通してコヒーレントなオブジェクトの出現を可能にする。
実験結果から,POCI-Diffは,所定の3次元レイアウトと編集に整合した高品質な画像を生成し,変形による幾何学的アーティファクトを排除しつつ,視覚的忠実さとレイアウトの定着性の両方において,最先端の手法よりも優れていた。
関連論文リスト
- Dragging with Geometry: From Pixels to Geometry-Guided Image Editing [42.176957681367185]
幾何学誘導型ドラッグベース画像編集手法であるGeoDragを提案する。
ジオドラグは3次元幾何学と2次元空間先行を共同で符号化する統一された変位場に基づいており、コヒーレントで高忠実で構造に一貫性のある編集を可能にしている。
論文 参考訳(メタデータ) (2025-09-30T03:53:11Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - 3DOT: Texture Transfer for 3DGS Objects from a Single Reference Image [31.972069558992946]
3Dテクスチャスワップは、3Dオブジェクトテクスチャのカスタマイズを可能にする。
専用の方法はないが、適応された2D編集とテキスト駆動の3D編集アプローチは、この目的を果たすことができる。
3DSワッピング,3次元テクスチャスワッピング方式を導入し,プログレッシブ・ジェネレーション,ビュー・コンシスタンス・グラデーション・ガイダンス,プロンプト・チューニング・グラデーション・ガイダンスを統合した。
論文 参考訳(メタデータ) (2025-03-24T16:31:52Z) - Diffusion-Based Attention Warping for Consistent 3D Scene Editing [55.2480439325792]
拡散モデルを用いた3次元シーン編集のための新しい手法を提案する。
提案手法は,単一の参照画像から抽出した注目機能を利用して,意図した編集を定義する。
これらの歪んだ特徴を他の視点に注入することで、編集のコヒーレントな伝播を可能にする。
論文 参考訳(メタデータ) (2024-12-10T23:57:18Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。