論文の概要: FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors
- arxiv url: http://arxiv.org/abs/2505.01322v2
- Date: Sun, 01 Jun 2025 07:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.333895
- Title: FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors
- Title(参考訳): FreeInsert:空間的優先順位のない3次元ガウスシーンにおけるテキストガイド型オブジェクト挿入
- Authors: Chenxi Li, Weijie Wang, Qiang Li, Bruno Lepri, Nicu Sebe, Weizhi Nie,
- Abstract要約: FreeInsertは空間配置からオブジェクト生成を分離する新しいフレームワークである。
意味的コヒーレント、空間的正確、視覚的にリアルな3D挿入を実現する。
- 参考スコア(独自算出の注目度): 67.26107732326948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven object insertion in 3D scenes is an emerging task that enables intuitive scene editing through natural language. However, existing 2D editing-based methods often rely on spatial priors such as 2D masks or 3D bounding boxes, and they struggle to ensure consistency of the inserted object. These limitations hinder flexibility and scalability in real-world applications. In this paper, we propose FreeInsert, a novel framework that leverages foundation models including MLLMs, LGMs, and diffusion models to disentangle object generation from spatial placement. This enables unsupervised and flexible object insertion in 3D scenes without spatial priors. FreeInsert starts with an MLLM-based parser that extracts structured semantics, including object types, spatial relationships, and attachment regions, from user instructions. These semantics guide both the reconstruction of the inserted object for 3D consistency and the learning of its degrees of freedom. We leverage the spatial reasoning capabilities of MLLMs to initialize object pose and scale. A hierarchical, spatially aware refinement stage further integrates spatial semantics and MLLM-inferred priors to enhance placement. Finally, the appearance of the object is improved using the inserted-object image to enhance visual fidelity. Experimental results demonstrate that FreeInsert achieves semantically coherent, spatially precise, and visually realistic 3D insertions without relying on spatial priors, offering a user-friendly and flexible editing experience.
- Abstract(参考訳): 3Dシーンにおけるテキスト駆動オブジェクト挿入は、自然言語による直感的なシーン編集を可能にする新しいタスクである。
しかし、既存の2D編集ベースの方法は、しばしば2Dマスクや3Dバウンディングボックスのような空間的先行性に依存し、挿入されたオブジェクトの一貫性を確保するのに苦労する。
これらの制限は、現実世界のアプリケーションにおける柔軟性とスケーラビリティを妨げる。
本稿では,MLLM,LGM,拡散モデルなどの基礎モデルを利用して空間配置からオブジェクトを生成する新しいフレームワークであるFreeInsertを提案する。
これにより、空間的先行を伴わない3Dシーンにおいて、教師なしで柔軟なオブジェクト挿入が可能になる。
FreeInsertはMLLMベースのパーサから始まり、ユーザインストラクションからオブジェクトタイプ、空間関係、アタッチメント領域を含む構造化セマンティクスを抽出する。
これらのセマンティクスは、挿入された物体の3次元一貫性の再構築と、その自由度の学習の両方を導く。
MLLMの空間的推論機能を利用して、オブジェクトのポーズとスケールを初期化する。
階層的で空間的に認識された洗練段階は、配置を強化するために空間意味論とMLLM推論された先行を更に統合する。
最後に、挿入対象画像を用いてオブジェクトの外観を改善し、視覚的忠実度を高める。
実験結果から,FreeInsertは空間的先行性に頼ることなく,意味的コヒーレント,空間的精度,視覚的にリアルな3D挿入を実現し,ユーザフレンドリでフレキシブルな編集体験を提供することがわかった。
関連論文リスト
- HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D
Object Manipulation [2.8661021832561757]
3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。
ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。
本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
論文 参考訳(メタデータ) (2022-11-17T18:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。