論文の概要: SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.23359v1
- Date: Thu, 26 Feb 2026 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.862491
- Title: SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation
- Title(参考訳): SeeThrough3D:テキスト・画像生成におけるOcclusion Aware 3D Control
- Authors: Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat, Ravi Kiran Sarvadevabhatla, R. Venkatesh Babu,
- Abstract要約: 閉包推論は、深度に一貫性のある幾何学とスケールを持つ部分閉包対象に対して必要不可欠である。
本稿では,オクルージョンを明示的にモデル化した3次元レイアウト条件付き生成モデルであるSeeeThrough3Dを提案する。
- 参考スコア(独自算出の注目度): 32.15143378003745
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.
- Abstract(参考訳): 我々は,オクルージョン推論を3次元レイアウト条件付き生成の基本的な見落としの側面として認識する。
部分的に隠蔽された物体を深度に一貫性のある幾何学とスケールで合成するためには不可欠である。
既存の手法では、入力レイアウトに従う現実的なシーンを生成することができるが、正確なオブジェクト間閉塞をモデル化できない場合が多い。
本稿では,オクルージョンを明示的にモデル化した3次元レイアウト条件付き生成モデルであるSeeeThrough3Dを提案する。
オブジェクトを仮想環境内に配置した透明な3Dボックスとして表現し,所望のカメラ視点でレンダリングする,オクルージョン対応の3Dシーン表現(OSCR)を導入する。
透過性は隠されたオブジェクト領域を符号化し、モデルがオクルージョンを推論できるようにする。
我々は、レンダリングされた3D表現から派生した視覚的トークンのセットを導入することで、事前訓練されたフローベースのテキスト画像生成モデルを条件付けする。
さらに、マスク付き自己注意を用いて、各オブジェクト境界ボックスを対応するテキスト記述に正確にバインドし、オブジェクト属性の混合を伴わずに複数のオブジェクトを正確に生成する。
モデルを訓練するために,多目的シーンを多種多種多様なオブジェクト間オクルージョンを持つ合成データセットを構築した。
SeeThrough3Dはオブジェクトのカテゴリを効果的に一般化し、リアルなオクルージョンと一貫したカメラ制御で正確な3Dレイアウト制御を可能にする。
関連論文リスト
- RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model [83.37403036061403]
本研究では,SceneMakerと呼ばれる分離された3次元シーン生成フレームワークを提案する。
まず,3次元オブジェクト生成からデオクルージョンモデルを分離し,画像データセットと収集したデオクルージョンデータセットを活用することでデオクルージョンモデルを強化する。
そこで本研究では,自己意図と相互意図の両方のグローバルなメカニズムと局所的なメカニズムを統合し,精度を向上させるための統合されたポーズ推定モデルを提案する。
論文 参考訳(メタデータ) (2025-12-11T18:59:56Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Volumetric Disentanglement for 3D Scene Manipulation [22.22326242219791]
本研究では,前景オブジェクトを背景から切り離したり分離したりするためのボリューム・フレームワークを提案し,前景オブジェクトを背景だけでなく意味的に操作する。
筆者らのフレームワークは,望まれる前景オブジェクトを指定する2次元マスクと関連する2次元ビューとポーズを入力として,前景のゆがみを生成する。
その後、オブジェクト・カモフラージュ、非負の3Dオブジェクト・インペインティング、3Dオブジェクト・インペインティング、3Dテキスト・ベースなど、多数の下流操作タスクに対するフレームワークの適用性を実証した。
論文 参考訳(メタデータ) (2022-06-06T17:57:07Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文 参考訳(メタデータ) (2020-06-11T00:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。