論文の概要: LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering
- arxiv url: http://arxiv.org/abs/2407.17310v1
- Date: Wed, 24 Jul 2024 14:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:34:51.561605
- Title: LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering
- Title(参考訳): LangOcc: ボリュームレンダリングによる自己監督型オープン語彙職業推定
- Authors: Simon Boeder, Fabian Gigengack, Benjamin Risse,
- Abstract要約: 本稿では,LangOccと呼ばれる意味的占有度推定手法を提案する。
LangOccはカメライメージのみで訓練されており、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
- 参考スコア(独自算出の注目度): 0.5852077003870417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic occupancy has recently gained significant traction as a prominent method for 3D scene representation. However, most existing camera-based methods rely on costly datasets with fine-grained 3D voxel labels or LiDAR scans for training, which limits their practicality and scalability, raising the need for self-supervised approaches in this domain. Moreover, most methods are tied to a predefined set of classes which they can detect. In this work we present a novel approach for open vocabulary occupancy estimation called \textit{LangOcc}, that is trained only via camera images, and can detect arbitrary semantics via vision-language alignment. In particular, we distill the knowledge of the strong vision-language aligned encoder CLIP into a 3D occupancy model via differentiable volume rendering. Our model estimates vision-language aligned features in a 3D voxel grid using only images. It is trained in a self-supervised manner by rendering our estimations back to 2D space, where ground-truth features can be computed. This training mechanism automatically supervises the scene geometry, allowing for a straight-forward and powerful training method without any explicit geometry supervision. LangOcc outperforms LiDAR-supervised competitors in open vocabulary occupancy by a large margin, solely relying on vision-based training. We also achieve state-of-the-art results in self-supervised semantic occupancy estimation on the Occ3D-nuScenes dataset, despite not being limited to a specific set of categories, thus demonstrating the effectiveness of our proposed vision-language training.
- Abstract(参考訳): 近年,3次元シーン表現の顕著な方法としてセマンティック占有が注目されている。
しかし、既存のカメラベースのほとんどの手法は、訓練用の細粒度の3DボクセルラベルやLiDARスキャンを備えた高価なデータセットに依存しているため、実用性とスケーラビリティが制限され、この領域での自己監督的なアプローチの必要性が高まっている。
さらに、ほとんどのメソッドは事前に定義されたクラスのセットに結び付けられており、検出することができる。
本研究では, カメラ画像のみを用いて学習し, 視覚言語アライメントにより任意の意味を検出可能な, 開語彙占有推定法である「textit{LangOcc}」を提案する。
特に,強力な視覚言語対応エンコーダCLIPの知識を,可変ボリュームレンダリングにより3次元占有モデルに抽出する。
本モデルでは,画像のみを用いた3次元ボクセルグリッドの視覚言語対応機能を推定する。
2次元空間に推定をレンダリングすることで、自己教師型で訓練し、そこでは、基底的特徴を計算できる。
このトレーニングメカニズムは、シーンの幾何学を自動で監視し、明確な幾何学的監督なしに、ストレートフォワードで強力なトレーニング方法を実現できる。
LangOccは、オープンボキャブラリの占有率でLiDARが監督する競合他社よりも、視覚ベースのトレーニングにのみ依存している。
また,Occ3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の結果を,特定のカテゴリに限らず達成し,提案したビジョン言語学習の有効性を実証した。
関連論文リスト
- Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文 参考訳(メタデータ) (2023-09-25T19:33:52Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Unsupervised Learning of Efficient Geometry-Aware Neural Articulated
Representations [89.1388369229542]
本稿では,3次元幾何認識による音声オブジェクトの表現学習のための教師なし手法を提案する。
私たちは、GANトレーニングで表現を学ぶことで、このニーズを回避します。
実験は,本手法の有効性を実証し,GANに基づくトレーニングにより,制御可能な3次元表現を,監督なしで学習できることを示す。
論文 参考訳(メタデータ) (2022-04-19T12:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。