論文の概要: AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2502.04981v2
- Date: Wed, 12 Mar 2025 03:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:42.793859
- Title: AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- Title(参考訳): AutoOcc:Vision-Language Guided Gaussian Splattingによる自動オープンエンディングセマンティックアクシデントアノテーション
- Authors: Xiaoyu Zhou, Jingqi Wang, Yongtao Wang, Yufei Wei, Nan Dong, Ming-Hsuan Yang,
- Abstract要約: AutoOccはセマンティック占有アノテーションのためのビジョン中心の自動パイプラインである。
オープンエンドのセマンティック・コンカレンシー・コンカレンシー・コンカレンシー・コンカレンシー・タスクを定式化し,シーン・コンカレンシーを自動的に生成する。
我々のフレームワークは、人間のラベルを使わずに、既存の自動占有アノテーション手法より優れています。
- 参考スコア(独自算出の注目度): 46.677120329555486
- License:
- Abstract: Obtaining high-quality 3D semantic occupancy from raw sensor data remains an essential yet challenging task, often requiring extensive manual labeling. In this work, we propose AutoOcc, an vision-centric automated pipeline for open-ended semantic occupancy annotation that integrates differentiable Gaussian splatting guided by vision-language models. We formulate the open-ended semantic occupancy reconstruction task to automatically generate scene occupancy by combining attention maps from vision-language models and foundation vision models. We devise semantic-aware Gaussians as intermediate geometric descriptors and propose a cumulative Gaussian-to-voxel splatting algorithm that enables effective and efficient occupancy annotation. Our framework outperforms existing automated occupancy annotation methods without human labels. AutoOcc also enables open-ended semantic occupancy auto-labeling, achieving robust performance in both static and dynamically complex scenarios. All the source codes and trained models will be released.
- Abstract(参考訳): 生のセンサーデータから高品質な3Dセマンティクスを占有することは、多くの場合、広範囲な手動ラベリングを必要とするため、必須かつ困難な課題である。
本稿では,視覚言語モデルでガイドされたガウススプラッティングを統合した,オープンエンドセマンティック占有アノテーションのための視覚中心の自動パイプラインであるAutoOccを提案する。
本研究では,視覚言語モデルと基礎視覚モデルからの注目マップを組み合わせることで,オープンエンドなセマンティック・コンカレンシー・コンカレンシー・コンカレンシー・コンカレンシー・タスクを定式化し,シーン・コンカレンシーを自動的に生成する。
我々は,意味認識型ガウスを中間幾何学的記述子として考案し,有効かつ効率的な占有アノテーションを実現する累積ガウス-ボクセルスプラッティングアルゴリズムを提案する。
我々のフレームワークは、人間のラベルを使わずに、既存の自動占有アノテーション手法より優れています。
AutoOccはまた、オープンなセマンティック占有の自動ラベルを可能にし、静的シナリオと動的シナリオの両方で堅牢なパフォーマンスを実現する。
すべてのソースコードとトレーニングされたモデルがリリースされる。
関連論文リスト
- GaussRender: Learning 3D Occupancy with Gaussian Rendering [84.60008381280286]
GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GeomGS: LiDAR-Guided Geometry-Aware Gaussian Splatting for Robot Localization [20.26969580492428]
我々はGeomGS(Geometry-Aware Gaussian Splatting)と呼ばれる新しい3DGS法を提案する。
我々のGeomGSは、幾何および局所化性能をいくつかのベンチマークで示すとともに、測光性能も改善している。
論文 参考訳(メタデータ) (2025-01-23T06:43:38Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Trim 3D Gaussian Splatting for Accurate Geometry Representation [72.00970038074493]
画像から正確な3次元形状を復元するためにTrim 3D Gaussian Splatting (TrimGS)を導入する。
実験および理論的解析により、比較的小さなガウススケールが複雑な詳細を表現・最適化する非無視因子であることが判明した。
元の3DGSと最先端の2DGSと組み合わせると、TrimGSは一貫してより正確な幾何学と高い知覚品質が得られる。
論文 参考訳(メタデータ) (2024-06-11T17:34:46Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain [43.80789481557894]
セマンティック・アウェアな3Dガウス・スプラットを用いた細粒度3次元幾何再構成のためのSA-GSという新しい手法を提案する。
我々はSAMやDINOのような大きな視覚モデルに格納された事前情報を利用してセマンティックマスクを生成する。
我々は,新しい確率密度に基づく抽出法を用いて点雲を抽出し,ガウススプラッツを下流タスクに不可欠な点雲に変換する。
論文 参考訳(メタデータ) (2024-05-27T08:15:10Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。