論文の概要: FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D
Scene Understanding
- arxiv url: http://arxiv.org/abs/2401.01970v1
- Date: Wed, 3 Jan 2024 20:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:17:35.666722
- Title: FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D
Scene Understanding
- Title(参考訳): fmgs:3次元シーン理解のための基礎モデル組込み3次元ガウススプレーティング
- Authors: Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
- Abstract要約: 本稿では,基礎モデルの視覚言語埋め込みを3次元ガウススプラッティングに組み込んだalgfull(algname)を提案する。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
- 参考スコア(独自算出の注目度): 11.928820970545924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precisely perceiving the geometric and semantic properties of real-world 3D
objects is crucial for the continued evolution of augmented reality and robotic
applications. To this end, we present \algfull{} (\algname{}), which
incorporates vision-language embeddings of foundation models into 3D Gaussian
Splatting (GS). The key contribution of this work is an efficient method to
reconstruct and represent 3D vision-language models. This is achieved by
distilling feature maps generated from image-based foundation models into those
rendered from our 3D model. To ensure high-quality rendering and fast training,
we introduce a novel scene representation by integrating strengths from both GS
and multi-resolution hash encodings (MHE). Our effective training procedure
also introduces a pixel alignment loss that makes the rendered feature distance
of same semantic entities close, following the pixel-level semantic boundaries.
Our results demonstrate remarkable multi-view semantic consistency,
facilitating diverse downstream tasks, beating state-of-the-art methods by
$\mathbf{10.2}$ percent on open-vocabulary language-based object detection,
despite that we are $\mathbf{851\times}$ faster for inference. This research
explores the intersection of vision, language, and 3D scene representation,
paving the way for enhanced scene understanding in uncontrolled real-world
environments. We plan to release the code upon paper acceptance.
- Abstract(参考訳): 現実世界の3dオブジェクトの幾何学的および意味的特性を正確に認識することは、拡張現実とロボット応用の継続的な進化に不可欠である。
この目的のために,基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ \algfull{} (\algname{}) を提案する。
この研究の重要な貢献は、3次元視覚言語モデルを再構築し表現するための効率的な方法である。
これは、画像ベース基礎モデルから生成された特徴マップを、我々の3Dモデルからレンダリングしたものに蒸留することで実現される。
高品質なレンダリングと高速なトレーニングを実現するため,GSとマルチレゾリューションハッシュエンコーディング(MHE)の長所を統合することで,新しいシーン表現を導入する。
提案手法では,画素レベルのセマンティック境界に従って,同じセマンティックエンティティの描画特徴距離を近接させる画素アライメント損失も導入する。
我々の結果は、様々なダウンストリームタスクを容易にし、オープンボキャブラリ言語に基づくオブジェクト検出において、$\mathbf{10.2}$%で最先端のメソッドを圧倒する、素晴らしいマルチビューセマンティック一貫性を示す。
本研究では,視覚,言語,および3次元シーン表現の交点を探索し,無制御実環境におけるシーン理解の強化について検討する。
紙の受け入れ次第、コードをリリースする予定です。
関連論文リスト
- SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [12.632287118592178]
本稿では,限られたRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立させるエンドツーエンドのトレーニング可能なソリューションを提案する。
提案手法は,2つの大規模ベンチマークデータセット上でのセマンティックシーン再構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed
Silhouettes [48.642181362172906]
対象物の粗い3次元表現を多視点2次元マスク監視から学習するアルゴリズムを提案する。
既存のボクセルを用いた物体再構成法とは対照的に,提案手法は生成した形状やポーズを表現することを学ぶ。
リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を実証する。
論文 参考訳(メタデータ) (2021-06-24T17:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。