論文の概要: Voxel-Aggergated Feature Synthesis: Efficient Dense Mapping for Simulated 3D Reasoning
- arxiv url: http://arxiv.org/abs/2411.10616v1
- Date: Fri, 15 Nov 2024 22:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:35.036692
- Title: Voxel-Aggergated Feature Synthesis: Efficient Dense Mapping for Simulated 3D Reasoning
- Title(参考訳): Voxel-Aggergated Feature Synthesis: Simulated 3D Reasoning のための効率的なダンスマッピング
- Authors: Owen Burns, Rizwan Qureshi,
- Abstract要約: Voxel-Aggregated Feature Synthesis (VAFS) はシミュレーションにおける高密度3次元マッピングの新しいアプローチである。
VAFSはシミュレータの物理エンジンによって計算される分節点クラウドを用いて計算を大幅に削減する。
シミュレーションシーンにおける異なるオブジェクトに対する意味的クエリのIoUスコアを評価することで、結果の表現を検証する。
- 参考スコア(独自算出の注目度): 3.199782544428545
- License:
- Abstract: We address the issue of the exploding computational requirements of recent State-of-the-art (SOTA) open set multimodel 3D mapping (dense 3D mapping) algorithms and present Voxel-Aggregated Feature Synthesis (VAFS), a novel approach to dense 3D mapping in simulation. Dense 3D mapping involves segmenting and embedding sequential RGBD frames which are then fused into 3D. This leads to redundant computation as the differences between frames are small but all are individually segmented and embedded. This makes dense 3D mapping impractical for research involving embodied agents in which the environment, and thus the mapping, must be modified with regularity. VAFS drastically reduces this computation by using the segmented point cloud computed by a simulator's physics engine and synthesizing views of each region. This reduces the number of features to embed from the number of captured RGBD frames to the number of objects in the scene, effectively allowing a "ground truth" semantic map to be computed an order of magnitude faster than traditional methods. We test the resulting representation by assessing the IoU scores of semantic queries for different objects in the simulated scene, and find that VAFS exceeds the accuracy and speed of prior dense 3D mapping techniques.
- Abstract(参考訳): 本稿では,最近のオープン・オブ・ザ・アート(SOTA)3次元モデルマッピング(Dense 3D Mapping)アルゴリズムの爆発的計算要件と,シミュレーションにおける高密度3次元マッピングの新しいアプローチであるVoxel-Aggregated Feature Synthesis(VAFS)の課題に対処する。
Dense 3Dマッピングでは、シーケンシャルなRGBDフレームを3Dに分割して埋め込む。
これはフレーム間の差が小さいが、すべてが個別にセグメント化され、組込まれているため、冗長な計算につながる。
これにより、環境、すなわちマッピングが規則性で修正されなければならないエンボディードエージェントを含む研究において、密集した3Dマッピングは非現実的である。
VAFSはシミュレータの物理エンジンによって計算されたセグメント化された点クラウドを使用して各領域のビューを合成することにより、この計算を大幅に削減する。
これにより、キャプチャされたRGBDフレームの数からシーン内のオブジェクトの数まで、埋め込む機能の数を減らすことができる。
シミュレーションシーンにおけるオブジェクト間のセマンティッククエリのIoUスコアを評価した結果,VAFSが従来の高密度3Dマッピング手法の精度と速度を超えることが判明した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Toward General Object-level Mapping from Sparse Views with 3D Diffusion Priors [8.701106353658346]
一般的なオブジェクトレベルのマッピングは、細かな形状と多視点センサーの観察によるポーズで、シーン内のオブジェクトの3Dマップを構築する。
最近の研究は、スパースビューからオブジェクトレベルのマッピングに先立つ生成的な形状を導入しているが、それは単一カテゴリオブジェクトに限定されている。
本研究では,3次元拡散モデルを用いた汎用オブジェクトレベルマッピングシステム GOM を提案し,シーン内の全てのオブジェクトのテクスチャと幾何学の両方に対してニューラルレージアンス場 (NeRF) を出力する。
論文 参考訳(メタデータ) (2024-10-07T21:33:30Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SHINE-Mapping: Large-Scale 3D Mapping Using Sparse Hierarchical Implicit
Neural Representations [37.733802382489515]
本稿では, 3次元LiDAR計測を用いて, 暗示表現を用いた大規模3次元再構成を実現する際の課題について述べる。
我々はオクツリーに基づく階層構造を通じて暗黙的な特徴を学習し、保存する。
我々の3D再構成は、現在の最先端3Dマッピング法よりも正確で、完全で、メモリ効率が高いことを示す。
論文 参考訳(メタデータ) (2022-10-05T14:38:49Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。