論文の概要: A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
- arxiv url: http://arxiv.org/abs/2508.01197v1
- Date: Sat, 02 Aug 2025 05:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.751349
- Title: A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding
- Title(参考訳): マルチモーダルな3次元接地に対する粗対有限のアプローチ
- Authors: Zhan Shi, Song Wang, Junbo Chen, Jianke Zhu,
- Abstract要約: 挑戦的な屋外シーンにおける3D接地のためのベンチマークを導入する。
nuScenesデータセットに基づいて構築され、自然言語とボクセルレベルの占有アノテーションを統合する。
また,マルチモーダル学習による3次元接地のためのエンド・ツー・エンド・エンド・モデルである GroundingOcc を提案する。
- 参考スコア(独自算出の注目度): 21.59984961930343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding aims to identify objects or regions in a scene based on natural language descriptions, essential for spatially aware perception in autonomous driving. However, existing visual grounding tasks typically depend on bounding boxes that often fail to capture fine-grained details. Not all voxels within a bounding box are occupied, resulting in inaccurate object representations. To address this, we introduce a benchmark for 3D occupancy grounding in challenging outdoor scenes. Built on the nuScenes dataset, it integrates natural language with voxel-level occupancy annotations, offering more precise object perception compared to the traditional grounding task. Moreover, we propose GroundingOcc, an end-to-end model designed for 3D occupancy grounding through multi-modal learning. It combines visual, textual, and point cloud features to predict object location and occupancy information from coarse to fine. Specifically, GroundingOcc comprises a multimodal encoder for feature extraction, an occupancy head for voxel-wise predictions, and a grounding head to refine localization. Additionally, a 2D grounding module and a depth estimation module enhance geometric understanding, thereby boosting model performance. Extensive experiments on the benchmark demonstrate that our method outperforms existing baselines on 3D occupancy grounding. The dataset is available at https://github.com/RONINGOD/GroundingOcc.
- Abstract(参考訳): 視覚的グラウンドティングは、自律運転における空間的認識に不可欠な自然言語記述に基づいて、シーン内の物体や領域を特定することを目的としている。
しかし、既存の視覚的接地タスクは、しばしば細かな詳細を捉えるのに失敗するバウンディングボックスに依存する。
境界ボックス内のすべてのボクセルが占有されるわけではなく、不正確なオブジェクト表現をもたらす。
これを解決するために,挑戦的な屋外シーンにおける3D接地のためのベンチマークを導入する。
nuScenesデータセットに基づいて構築され、自然言語とボクセルレベルの占有アノテーションを統合し、従来の接地作業と比較してより正確なオブジェクト認識を提供する。
さらに,マルチモーダル学習による3次元接地のためのエンド・ツー・エンド・エンド・モデルである GroundingOcc を提案する。
視覚的、テキスト的、およびポイントクラウド機能を組み合わせて、オブジェクトの位置と占有情報を粗いものから細かいものへと予測する。
具体的には、特徴抽出用マルチモーダルエンコーダと、ボクセルワイド予測用占有ヘッドと、ローカライゼーションを洗練するための接地ヘッドとを備える。
さらに、2次元接地モジュールと深さ推定モジュールにより幾何学的理解が向上し、モデル性能が向上する。
ベンチマーク実験の結果,本手法は既存の3次元接地におけるベースラインよりも優れていた。
データセットはhttps://github.com/RONINGOD/GroundingOcc.comで公開されている。
関連論文リスト
- SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [16.38713257618971]
Anywhere3D-Benchは2,632個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-05T11:28:02Z) - SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models [9.568997654206823]
SORT3Dは2Dデータからリッチなオブジェクト属性を利用し、大規模言語モデルの能力とAsベースの空間推論ツールボックスをマージするアプローチである。
2つのベンチマークにおいて、複雑なビュー依存のグラウンド化タスクにおいて、SORT3Dが最先端のパフォーマンスを達成することを示す。
私たちはまた、パイプラインを実装して、自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見えなかった現実世界の環境において、オブジェクトゴールナビゲーションに使用できることを実証しています。
論文 参考訳(メタデータ) (2025-04-25T20:24:11Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Det6D: A Ground-Aware Full-Pose 3D Object Detector for Improving Terrain
Robustness [1.4620086904601473]
空間的・姿勢的制約を伴わない初の完全自由度3次元物体検出器であるDet6Dを提案する。
ピッチやロールを含む全方向のポーズを予測するために,地上認識方向分岐を設計する。
異なる地形における本手法の有効性とロバスト性について実験を行った。
論文 参考訳(メタデータ) (2022-07-19T17:12:48Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。