論文の概要: 3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation
- arxiv url: http://arxiv.org/abs/2503.15185v1
- Date: Wed, 19 Mar 2025 13:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:31.214073
- Title: 3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation
- Title(参考訳): プロトタイプ・アウェア・ビュー・トランスフォーメーションによる低分解能クエリによる3次元動作予測
- Authors: Gyeongrok Oh, Sungjune Kim, Heeju Ko, Hyung-gun Chi, Jinkyu Kim, Dongwook Lee, Daehyun Ji, Sungjoon Choi, Sujin Jang, Sangpil Kim,
- Abstract要約: 本稿では,階層化された画像セグメントのプロトタイプをビュー変換に活用し,低解像度のコンテキストを向上する新しい占有ネットワークであるProtoOccを紹介する。
特に、2Dプロトタイプの3Dボクセルクエリへのマッピングは、高レベルなビジュアルジオメトリを符号化し、クエリの解像度の低下から空間情報の損失を補う。
ProtoOcc は 75% のボクセル分解能が低下しても, ベースラインに対する競争性能が向上することを示す。
- 参考スコア(独自算出の注目度): 16.69186493462387
- License:
- Abstract: The resolution of voxel queries significantly influences the quality of view transformation in camera-based 3D occupancy prediction. However, computational constraints and the practical necessity for real-time deployment require smaller query resolutions, which inevitably leads to an information loss. Therefore, it is essential to encode and preserve rich visual details within limited query sizes while ensuring a comprehensive representation of 3D occupancy. To this end, we introduce ProtoOcc, a novel occupancy network that leverages prototypes of clustered image segments in view transformation to enhance low-resolution context. In particular, the mapping of 2D prototypes onto 3D voxel queries encodes high-level visual geometries and complements the loss of spatial information from reduced query resolutions. Additionally, we design a multi-perspective decoding strategy to efficiently disentangle the densely compressed visual cues into a high-dimensional 3D occupancy scene. Experimental results on both Occ3D and SemanticKITTI benchmarks demonstrate the effectiveness of the proposed method, showing clear improvements over the baselines. More importantly, ProtoOcc achieves competitive performance against the baselines even with 75\% reduced voxel resolution.
- Abstract(参考訳): ボクセルクエリの解像度は、カメラベースの3D占有率予測におけるビュー変換の品質に大きく影響する。
しかし、計算の制約とリアルタイムデプロイメントの実践的な必要性は、より小さなクエリ解決を必要とするため、必然的に情報損失につながる。
したがって、3D占有率の包括的表現を確保しつつ、限られたクエリサイズの範囲内でリッチな視覚的詳細をエンコードし保存することが不可欠である。
この目的のために,ビュートランスフォーメーションにおいてクラスタ化された画像セグメントのプロトタイプを活用し,低解像度のコンテキストを向上する新しい占有ネットワークであるProtoOccを紹介する。
特に、2Dプロトタイプの3Dボクセルクエリへのマッピングは、高レベルなビジュアルジオメトリを符号化し、クエリの解像度の低下から空間情報の損失を補う。
さらに,密に圧縮された視覚的手がかりを高次元の3次元占有シーンに効率的に切り離すための多視点復号方式を設計する。
Occ3D と SemanticKITTI のベンチマークによる実験結果から,提案手法の有効性が示された。
さらに重要なことは、ProtoOccは75%のボクセル解像度でもベースラインと競合する性能を実現している。
関連論文リスト
- AdaOcc: Adaptive-Resolution Occupancy Prediction [20.0994984349065]
AdaOccは適応分解能でマルチモーダルな予測手法である。
提案手法は,オブジェクト中心の3次元再構成と全体的占有予測を一つのフレームワークに統合する。
近距離シナリオでは、以前のベースラインを13%以上、ハウスドルフ距離を40%以上上回る。
論文 参考訳(メタデータ) (2024-08-24T03:46:25Z) - HIVE: HIerarchical Volume Encoding for Neural Implicit Surface Reconstruction [37.00102816748563]
空間情報を明示的に符号化するためのボリュームエンコーディングを導入する。
高分解能ボリュームは、高周波幾何学の詳細をキャプチャする。
低解像度の体積は、形状を滑らかに保つために空間的な一貫性を強制する。
この階層的なボリュームエンコーディングは、プラグ・アンド・プレイモジュールとして任意の暗黙の面再構成法に付加することができる。
論文 参考訳(メタデータ) (2024-08-03T06:34:20Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。