論文の概要: MonoOcc: Digging into Monocular Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2403.08766v1
- Date: Wed, 13 Mar 2024 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:17.876922
- Title: MonoOcc: Digging into Monocular Semantic Occupancy Prediction
- Title(参考訳): MonoOcc: Monocular Semantic Occupancy PredictionへのDigg
- Authors: Yupeng Zheng, Xiang Li, Pengfei Li, Yuhang Zheng, Bu Jin, Chengliang
Zhong, Xiaoxiao Long, Hao Zhao and Qichao Zhang
- Abstract要約: 単眼セマンティック占領予測は2次元画像のみからシーンの完全な3次元形状と意味情報を推測することを目的としている。
既存の手法は、3Dシーンを復元するために、比較的限られた情報しか持たない複雑なカスケードフレームワークに依存している。
本手法は,SemanticKITTI Scene Completionベンチマークを用いて,最先端の性能を示す。
- 参考スコア(独自算出の注目度): 20.833710016477653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular Semantic Occupancy Prediction aims to infer the complete 3D
geometry and semantic information of scenes from only 2D images. It has
garnered significant attention, particularly due to its potential to enhance
the 3D perception of autonomous vehicles. However, existing methods rely on a
complex cascaded framework with relatively limited information to restore 3D
scenes, including a dependency on supervision solely on the whole network's
output, single-frame input, and the utilization of a small backbone. These
challenges, in turn, hinder the optimization of the framework and yield
inferior prediction results, particularly concerning smaller and long-tailed
objects. To address these issues, we propose MonoOcc. In particular, we (i)
improve the monocular occupancy prediction framework by proposing an auxiliary
semantic loss as supervision to the shallow layers of the framework and an
image-conditioned cross-attention module to refine voxel features with visual
clues, and (ii) employ a distillation module that transfers temporal
information and richer knowledge from a larger image backbone to the monocular
semantic occupancy prediction framework with low cost of hardware. With these
advantages, our method yields state-of-the-art performance on the camera-based
SemanticKITTI Scene Completion benchmark. Codes and models can be accessed at
https://github.com/ucaszyp/MonoOcc
- Abstract(参考訳): 単眼セマンティック占領予測は2次元画像のみからシーンの完全な3次元形状と意味情報を推測することを目的としている。
自動運転車の3D認識を高める可能性から、特に注目されている。
しかし、既存の手法では、ネットワーク全体の出力にのみ依存すること、単一フレーム入力、小さなバックボーンの利用など、比較的限られた情報で3Dシーンを復元する複雑なカスケードフレームワークに依存している。
これらの課題は、フレームワークの最適化を妨げ、特に小さく長い尾を持つオブジェクトに関して劣った予測結果をもたらす。
これらの問題に対処するため、MonoOccを提案する。
特に私達は
一 フレームワークの浅い層を監督する補助的な意味的損失と、視覚的手がかりでボクセルの特徴を洗練するための画像条件のクロスアテンションモジュールを提案することにより、単眼の占有率予測枠組みを改善すること。
(II) 時間的情報とより豊かな知識をより大きな画像バックボーンから低コストのハードウェアで単分子的セマンティック占有予測フレームワークに伝達する蒸留モジュールを用いる。
これらの利点により、カメラベースのSemanticKITTI Scene Completionベンチマークで最先端の性能が得られる。
コードとモデルはhttps://github.com/ucaszyp/MonoOccでアクセスすることができる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。