論文の概要: AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2502.04981v2
- Date: Wed, 12 Mar 2025 03:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.783788
- Title: AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- Title(参考訳): AutoOcc:Vision-Language Guided Gaussian Splattingによる自動オープンエンディングセマンティックアクシデントアノテーション
- Authors: Xiaoyu Zhou, Jingqi Wang, Yongtao Wang, Yufei Wei, Nan Dong, Ming-Hsuan Yang,
- Abstract要約: AutoOccはセマンティック占有アノテーションのためのビジョン中心の自動パイプラインである。
オープンエンドのセマンティック・コンカレンシー・コンカレンシー・コンカレンシー・コンカレンシー・タスクを定式化し,シーン・コンカレンシーを自動的に生成する。
我々のフレームワークは、人間のラベルを使わずに、既存の自動占有アノテーション手法より優れています。
- 参考スコア(独自算出の注目度): 46.677120329555486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining high-quality 3D semantic occupancy from raw sensor data remains an essential yet challenging task, often requiring extensive manual labeling. In this work, we propose AutoOcc, an vision-centric automated pipeline for open-ended semantic occupancy annotation that integrates differentiable Gaussian splatting guided by vision-language models. We formulate the open-ended semantic occupancy reconstruction task to automatically generate scene occupancy by combining attention maps from vision-language models and foundation vision models. We devise semantic-aware Gaussians as intermediate geometric descriptors and propose a cumulative Gaussian-to-voxel splatting algorithm that enables effective and efficient occupancy annotation. Our framework outperforms existing automated occupancy annotation methods without human labels. AutoOcc also enables open-ended semantic occupancy auto-labeling, achieving robust performance in both static and dynamically complex scenarios. All the source codes and trained models will be released.
- Abstract(参考訳): 生のセンサーデータから高品質な3Dセマンティクスを占有することは、多くの場合、広範囲な手動ラベリングを必要とするため、必須かつ困難な課題である。
本稿では,視覚言語モデルでガイドされたガウススプラッティングを統合した,オープンエンドセマンティック占有アノテーションのための視覚中心の自動パイプラインであるAutoOccを提案する。
本研究では,視覚言語モデルと基礎視覚モデルからの注目マップを組み合わせることで,オープンエンドなセマンティック・コンカレンシー・コンカレンシー・コンカレンシー・コンカレンシー・タスクを定式化し,シーン・コンカレンシーを自動的に生成する。
我々は,意味認識型ガウスを中間幾何学的記述子として考案し,有効かつ効率的な占有アノテーションを実現する累積ガウス-ボクセルスプラッティングアルゴリズムを提案する。
我々のフレームワークは、人間のラベルを使わずに、既存の自動占有アノテーション手法より優れています。
AutoOccはまた、オープンなセマンティック占有の自動ラベルを可能にし、静的シナリオと動的シナリオの両方で堅牢なパフォーマンスを実現する。
すべてのソースコードとトレーニングされたモデルがリリースされる。
関連論文リスト
- SG-Reg: Generalizable and Efficient Scene Graph Registration [23.3853919684438]
セマンティックノードの複数モードを符号化するシーングラフネットワークを設計する。
バックエンドでは、対応に応じて変換を決定するために頑健なポーズ推定器を用いる。
提案手法は,クエリフレーム毎に52KBの通信帯域しか必要とせず,わずかに高い登録リコールを実現する。
論文 参考訳(メタデータ) (2025-04-20T01:22:40Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - GeomGS: LiDAR-Guided Geometry-Aware Gaussian Splatting for Robot Localization [20.26969580492428]
我々はGeomGS(Geometry-Aware Gaussian Splatting)と呼ばれる新しい3DGS法を提案する。
我々のGeomGSは、幾何および局所化性能をいくつかのベンチマークで示すとともに、測光性能も改善している。
論文 参考訳(メタデータ) (2025-01-23T06:43:38Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion [7.781799395896687]
本研究では,鳥の視線における連続的,オープンなセマンティクスと高度認識の表現を予測するためのLSMapを提案する。
我々のモデルは1枚のRGBD画像しか必要とせず、人間のラベルを必要とせず、リアルタイムに動作する。
事前学習された表現は、教師なしのセマンティックシーンの完了時に、既存の視覚基盤モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T18:08:05Z) - Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。
その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。
正規化として有効ランクを導入し、ガウスの構造を制約する。
論文 参考訳(メタデータ) (2024-06-17T15:51:59Z) - Trim 3D Gaussian Splatting for Accurate Geometry Representation [72.00970038074493]
画像から正確な3次元形状を復元するためにTrim 3D Gaussian Splatting (TrimGS)を導入する。
実験および理論的解析により、比較的小さなガウススケールが複雑な詳細を表現・最適化する非無視因子であることが判明した。
元の3DGSと最先端の2DGSと組み合わせると、TrimGSは一貫してより正確な幾何学と高い知覚品質が得られる。
論文 参考訳(メタデータ) (2024-06-11T17:34:46Z) - Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy [3.713586225621126]
ロボットは、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力を持つ必要がある。
この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。
本稿では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ推定器を訓練するための効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T06:40:04Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Label-efficient Semantic Scene Completion with Scribble Annotations [29.88371368606911]
ScribbleSCと呼ばれる新しいラベル効率ベンチマークを構築し、スパーススクリブルに基づくセマンティックラベルと密な幾何学的ラベルを組み合わせてセマンティックシーンを補完する。
本手法は, オフライン-オンライン蒸留モジュールを用いた自動ラベル作成とオンラインモデルトレーニングにより, 性能を向上させる。
論文 参考訳(メタデータ) (2024-05-24T03:09:50Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z) - Probabilistic Semantic Mapping for Urban Autonomous Driving Applications [1.181206257787103]
本研究では,道路,歩道,横断歩道,車線などの静的なランドマークの自動的かつ正確なラベル付けを行うために,画像と予め構築した点クラウドマップ情報を融合することを提案する。
本手法は,2次元画像のセマンティックセグメンテーションを行い,意味ラベルとポイント・クラウド・マップを関連づけて世界を正確にローカライズし,混乱行列の定式化を利用して,鳥の眼球面の確率論的セマンティック・マップを意味点・クラウドから構築する。
論文 参考訳(メタデータ) (2020-06-08T19:29:09Z) - SideInfNet: A Deep Neural Network for Semi-Automatic Semantic
Segmentation with Side Information [83.03179580646324]
本稿では,新たなディープニューラルネットワークアーキテクチャであるSideInfNetを提案する。
画像から学習した機能とユーザアノテーションから抽出したサイド情報を統合する。
提案手法を評価するために,提案したネットワークを3つのセマンティックセグメンテーションタスクに適用し,ベンチマークデータセットに対する広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-07T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。