論文の概要: Controllable 3D Placement of Objects with Scene-Aware Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.21446v1
- Date: Thu, 26 Jun 2025 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.189973
- Title: Controllable 3D Placement of Objects with Scene-Aware Diffusion Models
- Title(参考訳): シーン認識拡散モデルによる物体の3次元配置制御
- Authors: Mohamed Omran, Dimitris Kalatzis, Jens Petersen, Amirhossein Habibian, Auke Wiggers,
- Abstract要約: 粗い物体マスクと組み合わせた視覚マップは高品質な物体配置に十分であることを示す。
位置制御と外観制御を組み合わせることで、既存の物体をシーン内の正確な位置に配置できることを示す。
- 参考スコア(独自算出の注目度): 6.020146107338903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image editing approaches have become more powerful and flexible with the advent of powerful text-conditioned generative models. However, placing objects in an environment with a precise location and orientation still remains a challenge, as this typically requires carefully crafted inpainting masks or prompts. In this work, we show that a carefully designed visual map, combined with coarse object masks, is sufficient for high quality object placement. We design a conditioning signal that resolves ambiguities, while being flexible enough to allow for changing of shapes or object orientations. By building on an inpainting model, we leave the background intact by design, in contrast to methods that model objects and background jointly. We demonstrate the effectiveness of our method in the automotive setting, where we compare different conditioning signals in novel object placement tasks. These tasks are designed to measure edit quality not only in terms of appearance, but also in terms of pose and location accuracy, including cases that require non-trivial shape changes. Lastly, we show that fine location control can be combined with appearance control to place existing objects in precise locations in a scene.
- Abstract(参考訳): 画像編集アプローチは、強力なテキスト条件生成モデルの出現により、より強力で柔軟なものになっている。
しかし、正確な位置と配向を持つ環境に物体を置くことは、通常は慎重に塗装されたマスクやプロンプトを必要とするため、依然として課題である。
そこで本研究では,粗い物体マスクと組み合わせた視覚マップが,高品質な物体配置に十分であることを示す。
我々は、形状や物体の向きを変えるのに十分な柔軟性を持ちながら、あいまいさを解消する条件信号の設計を行う。
塗装モデルに基づいて構築することで、オブジェクトと背景を共同でモデル化する手法とは対照的に、背景を設計によって無傷にしておくことができる。
提案手法の有効性を自動車環境で実証し, 新規な物体配置タスクにおいて, 異なる条件信号を比較する。
これらのタスクは、外観だけでなく、非自明な形状変化を必要とするケースを含む、ポーズや位置の精度の観点からも、編集品質を測定するように設計されている。
最後に,既存の物体をシーン内の正確な位置に配置するために,精密な位置制御と外観制御を組み合わせることができることを示す。
関連論文リスト
- ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - Thinking Outside the BBox: Unconstrained Generative Object Compositing [36.86960274923344]
本稿では,制約のない生成物合成の新しい問題を提案する。
私たちの第一種モデルでは、マスクの向こう側にある影や反射などの物体効果を生成できます。
我々のモデルは、様々な品質指標やユーザスタディにおいて、既存のオブジェクト配置や合成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-09-06T18:42:30Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Customizing Text-to-Image Diffusion with Object Viewpoint Control [53.621518249820745]
テキストから画像への拡散モデルのカスタマイズにおいて、オブジェクト視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、カスタムオブジェクトのプロパティを変更し、テキストプロンプトを通じて、さまざまなバックグラウンドシーンでそれを生成することができます。
本稿では,対象視点からレンダリングした3次元オブジェクトの特徴に拡散過程を規定する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting [63.567363455092234]
RefFusionは,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく,新しい3Dインペイント手法である。
我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。
論文 参考訳(メタデータ) (2024-04-16T17:50:02Z) - Scene-Conditional 3D Object Stylization and Composition [27.57166804668999]
3D生成モデルは驚くべき進歩を遂げており、テキストや画像入力からほぼ任意の3Dアセットを生成することができる。
本稿では,既存の3Dアセットのスタイル化を与えられた2Dシーンに適合させるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:50:33Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。