論文の概要: Large Spatial Model: End-to-end Unposed Images to Semantic 3D
- arxiv url: http://arxiv.org/abs/2410.18956v2
- Date: Wed, 30 Oct 2024 22:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:21.715086
- Title: Large Spatial Model: End-to-end Unposed Images to Semantic 3D
- Title(参考訳): 大規模空間モデル: 終端から終端までの3D画像
- Authors: Zhiwen Fan, Jian Zhang, Wenyan Cong, Peihao Wang, Renjie Li, Kairun Wen, Shijie Zhou, Achuta Kadambi, Zhangyang Wang, Danfei Xu, Boris Ivanovic, Marco Pavone, Yue Wang,
- Abstract要約: 大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
- 参考スコア(独自算出の注目度): 79.94479633598102
- License:
- Abstract: Reconstructing and understanding 3D structures from a limited number of images is a well-established problem in computer vision. Traditional methods usually break this task into multiple subtasks, each requiring complex transformations between different data representations. For instance, dense reconstruction through Structure-from-Motion (SfM) involves converting images into key points, optimizing camera parameters, and estimating structures. Afterward, accurate sparse reconstructions are required for further dense modeling, which is subsequently fed into task-specific neural networks. This multi-step process results in considerable processing time and increased engineering complexity. In this work, we present the Large Spatial Model (LSM), which processes unposed RGB images directly into semantic radiance fields. LSM simultaneously estimates geometry, appearance, and semantics in a single feed-forward operation, and it can generate versatile label maps by interacting with language at novel viewpoints. Leveraging a Transformer-based architecture, LSM integrates global geometry through pixel-aligned point maps. To enhance spatial attribute regression, we incorporate local context aggregation with multi-scale fusion, improving the accuracy of fine local details. To tackle the scarcity of labeled 3D semantic data and enable natural language-driven scene manipulation, we incorporate a pre-trained 2D language-based segmentation model into a 3D-consistent semantic feature field. An efficient decoder then parameterizes a set of semantic anisotropic Gaussians, facilitating supervised end-to-end learning. Extensive experiments across various tasks show that LSM unifies multiple 3D vision tasks directly from unposed images, achieving real-time semantic 3D reconstruction for the first time.
- Abstract(参考訳): 限られた数の画像から3D構造を再構築し、理解することは、コンピュータビジョンにおいて確立された問題である。
従来のメソッドは通常、このタスクを複数のサブタスクに分割し、それぞれ異なるデータ表現間の複雑な変換を必要とする。
例えば、Structure-from-Motion (SfM)による密な再構成では、画像をキーポイントに変換し、カメラパラメータを最適化し、構造を推定する。
その後、より密集したモデリングのために正確なスパース再構成が必要となり、タスク固有のニューラルネットワークに入力される。
このマルチステッププロセスは、かなりの処理時間とエンジニアリングの複雑さを増大させる。
本研究では,RGB画像を直接意味的放射場に処理するLarge Spatial Model (LSM)を提案する。
LSMは、単一のフィードフォワード操作で幾何学、外観、意味を同時に推定し、新しい視点で言語と対話することで、多目的なラベルマップを生成することができる。
Transformerベースのアーキテクチャを活用して、LSMはピクセル整列点マップを通じてグローバルジオメトリを統合する。
空間特性の回帰性を高めるため,局所的コンテキストアグリゲーションとマルチスケール融合を併用し,局所的詳細の精度を向上させる。
ラベル付き3Dセマンティックデータの不足に対処し、自然言語によるシーン操作を可能にするために、事前学習された2D言語に基づくセマンティックセマンティクスモデルを3D一貫性セマンティクスフィールドに組み込む。
効率的なデコーダは意味論的異方性ガウスの集合をパラメータ化し、教師付きエンドツーエンド学習を容易にする。
様々なタスクにわたる大規模な実験により、LSMは非ポーズ画像から直接複数の3D視覚タスクを統一し、初めてリアルタイムなセマンティックな3D再構成を実現する。
関連論文リスト
- BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Semantic Validation in Structure from Motion [0.0]
Structure from Motion (SfM) は、一連の投影計測からシーンの3次元構造を復元する過程である。
SfMは、特徴検出とマッチング、カメラモーション推定、および3D構造の回復の3つの主要なステップから構成される。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。
論文 参考訳(メタデータ) (2023-04-05T12:58:59Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D
Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。
我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。
論文 参考訳(メタデータ) (2021-01-26T18:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。