論文の概要: LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2510.22141v1
- Date: Sat, 25 Oct 2025 03:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.834621
- Title: LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction
- Title(参考訳): LOC: オープンセット3D実行予測のための汎用言語ガイドフレームワーク
- Authors: Yuhang Gao, Xiang Xiang, Sheng Zhong, Guoyou Wang,
- Abstract要約: 我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
- 参考スコア(独自算出の注目度): 9.311605679381529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown significant progress in open-set challenges. However, the limited availability of 3D datasets hinders their effective application in 3D scene understanding. We propose LOC, a general language-guided framework adaptable to various occupancy networks, supporting both supervised and self-supervised learning paradigms. For self-supervised tasks, we employ a strategy that fuses multi-frame LiDAR points for dynamic/static scenes, using Poisson reconstruction to fill voids, and assigning semantics to voxels via K-Nearest Neighbor (KNN) to obtain comprehensive voxel representations. To mitigate feature over-homogenization caused by direct high-dimensional feature distillation, we introduce Densely Contrastive Learning (DCL). DCL leverages dense voxel semantic information and predefined textual prompts. This efficiently enhances open-set recognition without dense pixel-level supervision, and our framework can also leverage existing ground truth to further improve performance. Our model predicts dense voxel features embedded in the CLIP feature space, integrating textual and image pixel information, and classifies based on text and semantic similarity. Experiments on the nuScenes dataset demonstrate the method's superior performance, achieving high-precision predictions for known classes and distinguishing unknown classes without additional training data.
- Abstract(参考訳): VLM(Vision-Language Models)は、オープンセットの課題において大きな進歩を見せている。
しかし、3Dデータセットの可用性の制限は、3Dシーン理解における効果的な応用を妨げる。
本稿では,様々な職業ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案し,教師付き学習パラダイムと自己教師型学習パラダイムの両方をサポートする。
自己教師型タスクでは,動的/静的なシーンに多フレームのLiDARポイントを融合し,ポアソン再構成を用いて空白を埋め,K-Nearest Neighbor (KNN) を介してボクセルにセマンティクスを割り当て,包括的なボクセル表現を得る。
直接高次元的特徴蒸留による特徴量の均質化を緩和するため, Densely Contrastive Learning (DCL)を導入した。
DCLは、密度の高いvoxelセマンティック情報と定義済みのテキストプロンプトを活用する。
これにより,高密度画素レベルの監視を伴わないオープンセット認識の効率化が図られる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
nuScenesデータセットの実験では、メソッドの優れた性能を示し、既知のクラスに対して高精度な予測を行い、追加のトレーニングデータなしで未知のクラスを識別する。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Language Driven Occupancy Prediction [13.35971455725581]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げ、画像からテキストラベルをLiDARポイントクラウドに、最終的にはボクセルに転送する、実現可能な方法を提供します。
教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering [0.5852077003870417]
LangOccはオープン語彙占有率推定の新しいアプローチである。
カメライメージによってのみ訓練され、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
論文 参考訳(メタデータ) (2024-07-24T14:22:55Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。