論文の概要: AGO: Adaptive Grounding for Open World 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2504.10117v1
- Date: Mon, 14 Apr 2025 11:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:31.664017
- Title: AGO: Adaptive Grounding for Open World 3D Occupancy Prediction
- Title(参考訳): AGO: オープンワールド3D活動予測のための適応的グラウンド
- Authors: Peizheng Li, Shuxiao Ding, You Zhou, Qingwen Zhang, Onat Inak, Larissa Triess, Niklas Hanselmann, Marius Cordts, Andreas Zell,
- Abstract要約: オープンワールドの3Dセマンティック占有予測は、センサ入力からボキセル化された3D表現を生成することを目的としている。
AGOは,多様なオープンワールドシナリオを扱うための適応的基盤を持つ,新しい3次元占有予測フレームワークである。
- 参考スコア(独自算出の注目度): 11.607246562535366
- License:
- Abstract: Open-world 3D semantic occupancy prediction aims to generate a voxelized 3D representation from sensor inputs while recognizing both known and unknown objects. Transferring open-vocabulary knowledge from vision-language models (VLMs) offers a promising direction but remains challenging. However, methods based on VLM-derived 2D pseudo-labels with traditional supervision are limited by a predefined label space and lack general prediction capabilities. Direct alignment with pretrained image embeddings, on the other hand, fails to achieve reliable performance due to often inconsistent image and text representations in VLMs. To address these challenges, we propose AGO, a novel 3D occupancy prediction framework with adaptive grounding to handle diverse open-world scenarios. AGO first encodes surrounding images and class prompts into 3D and text embeddings, respectively, leveraging similarity-based grounding training with 3D pseudo-labels. Additionally, a modality adapter maps 3D embeddings into a space aligned with VLM-derived image embeddings, reducing modality gaps. Experiments on Occ3D-nuScenes show that AGO improves unknown object prediction in zero-shot and few-shot transfer while achieving state-of-the-art closed-world self-supervised performance, surpassing prior methods by 4.09 mIoU.
- Abstract(参考訳): オープンワールドの3Dセマンティック占有予測は、既知のオブジェクトと未知のオブジェクトの両方を認識しながら、センサ入力からボキセル化された3D表現を生成することを目的としている。
視覚言語モデル(VLM)からオープン語彙の知識を移すことは、有望な方向性を提供するが、依然として困難である。
しかし,VLMから派生した従来の2次元擬似ラベルに基づく手法は,事前に定義されたラベル空間によって制限され,一般的な予測能力に欠ける。
一方,VLMにおける画像やテキストの表現が不整合であることから,事前学習した画像埋め込みとの直接アライメントは信頼性に欠ける。
これらの課題に対処するために,AGOを提案する。AGOは,多様なオープンワールドシナリオを扱うための適応的基盤を備えた,新しい3D占有予測フレームワークである。
AGOは、まず周囲の画像とクラスプロンプトを3Dおよびテキスト埋め込みにエンコードし、3D擬似ラベルによる類似性に基づくグラウンドトレーニングを活用する。
さらに、モダリティアダプタは、VLM由来の画像埋め込みと整合した空間に3D埋め込みをマッピングし、モダリティギャップを低減する。
Occ3D-nuScenesの実験では、AGOはゼロショットおよび少数ショット転送において未知のオブジェクト予測を改善し、最先端のクローズドワールド自己監視性能を達成し、以前の手法を4.09 mIoUで上回った。
関連論文リスト
- AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D
Segmentation [23.110443633049382]
本稿では,画像と点雲の関係を網羅的に探究することで,クロスモーダル・クロスドメイン適応に挑戦する新しい手法を提案する。
KITTI360 と GTA5 の知識を用いて,セマンティック KITTI 上の3次元クラウドセマンティックセマンティックセマンティックスセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-19T14:29:57Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Consistency of Implicit and Explicit Features Matters for Monocular 3D
Object Detection [4.189643331553922]
モノクロ3D物体検出は、低コストの自律エージェントが周囲を知覚する一般的な解決策である。
本報告では,3次元表現における暗黙的特徴と明示的特徴の相違を解消するために,第1の配向認識画像バックボーンを用いたCIEFを提案する。
CIEFは、提出時にKITTIの3DおよびBEV検出ベンチマークで報告されたすべての手法の中で、第1位にランクされた。
論文 参考訳(メタデータ) (2022-07-16T13:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。