論文の概要: COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2312.01919v2
- Date: Thu, 11 Apr 2024 10:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:57:05.753538
- Title: COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
- Title(参考訳): COTR:視力に基づく3次元作業予測のための小型作業TRansformer
- Authors: Qihang Ma, Xin Tan, Yanyun Qu, Lizhuang Ma, Zhizhong Zhang, Yuan Xie,
- Abstract要約: 自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
- 参考スコア(独自算出の注目度): 60.87168562615171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The autonomous driving community has shown significant interest in 3D occupancy prediction, driven by its exceptional geometric perception and general object recognition capabilities. To achieve this, current works try to construct a Tri-Perspective View (TPV) or Occupancy (OCC) representation extending from the Bird-Eye-View perception. However, compressed views like TPV representation lose 3D geometry information while raw and sparse OCC representation requires heavy but redundant computational costs. To address the above limitations, we propose Compact Occupancy TRansformer (COTR), with a geometry-aware occupancy encoder and a semantic-aware group decoder to reconstruct a compact 3D OCC representation. The occupancy encoder first generates a compact geometrical OCC feature through efficient explicit-implicit view transformation. Then, the occupancy decoder further enhances the semantic discriminability of the compact OCC representation by a coarse-to-fine semantic grouping strategy. Empirical experiments show that there are evident performance gains across multiple baselines, e.g., COTR outperforms baselines with a relative improvement of 8%-15%, demonstrating the superiority of our method.
- Abstract(参考訳): 自律運転コミュニティは、例外的な幾何学的知覚と一般的な物体認識能力によって引き起こされる3D占有率予測に大きな関心を示している。
これを達成するために、現在の研究はバード・アイ・ビューの知覚から拡張されたトリパースペクティブ・ビュー(TPV)またはOccupancy(OCC)表現を構築しようとしている。
しかし、TPV表現のような圧縮されたビューは3次元幾何学情報を失う一方、生のOCC表現は重いが冗長な計算コストを必要とする。
上記の制約に対処するため,コンパクトな3次元OCC表現を再構成するために,幾何認識型占有エンコーダと意味認識型グループデコーダを備えたコンパクト Occupancy TRansformer (COTR) を提案する。
占有エンコーダは、まず、効率的な明示的なビュー変換により、コンパクトな幾何学的OCC特徴を生成する。
そして、占有デコーダは、粗大なセマンティックグルーピング戦略により、コンパクトなOCC表現のセマンティック識別性をさらに向上する。
実験により,COTR は比較的8%~15% の精度でベースラインを上回り,本手法の優位性を実証した。
関連論文リスト
- CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Visualizing High-Dimensional Configuration Spaces: A Comprehensive Analytical Approach [0.4143603294943439]
マニピュレータロボットの高次元Cs表現を2次元形式で可視化するための新しい手法を提案する。
元の寸法を小さくすることなく高次元Cs近似の定性的評価を行うための新しいツールを提供する。
論文 参考訳(メタデータ) (2023-12-18T04:05:48Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - UT-Net: Combining U-Net and Transformer for Joint Optic Disc and Cup
Segmentation and Glaucoma Detection [0.0]
緑内障は慢性の視覚疾患であり、永久的な不可逆性視覚障害を引き起こす可能性がある。
緑内障の早期発見には,カップ・ツー・ディスク比(CDR)の測定が重要な役割を担っている。
我々はUT-Netと呼ばれる新しいセグメンテーションパイプラインを提案し、U-Netとトランスフォーマーの双方の利点をエンコーディング層で利用し、次にアテンションゲートバイ線形融合方式を提案する。
論文 参考訳(メタデータ) (2023-03-08T23:21:19Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。