論文の概要: OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy
Prediction
- arxiv url: http://arxiv.org/abs/2403.05329v1
- Date: Fri, 8 Mar 2024 14:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:24:15.160828
- Title: OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy
Prediction
- Title(参考訳): occfusion:3次元占有予測のための深度推定自由マルチセンサー融合
- Authors: Ji Zhang and Yiran Ding
- Abstract要約: マルチセンサフュージョンに基づく3次元占有予測は、信頼性の高い自律運転システムに不可欠である。
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
我々は,奥行き推定が不要なマルチモーダル融合法であるOccFusionと,画像特徴の密接な統合のための対応する点クラウドサンプリングアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 5.069242662340813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction based on multi-sensor fusion, crucial for a reliable
autonomous driving system, enables fine-grained understanding of 3D scenes.
Previous fusion-based 3D occupancy predictions relied on depth estimation for
processing 2D image features. However, depth estimation is an ill-posed
problem, hindering the accuracy and robustness of these methods. Furthermore,
fine-grained occupancy prediction demands extensive computational resources. We
introduce OccFusion, a multi-modal fusion method free from depth estimation,
and a corresponding point cloud sampling algorithm for dense integration of
image features. Building on this, we propose an active training method and an
active coarse to fine pipeline, enabling the model to adaptively learn more
from complex samples and optimize predictions specifically for challenging
areas such as small or overlapping objects. The active methods we propose can
be naturally extended to any occupancy prediction model. Experiments on the
OpenOccupancy benchmark show our method surpasses existing state-of-the-art
(SOTA) multi-modal methods in IoU across all categories. Additionally, our
model is more efficient during both the training and inference phases,
requiring far fewer computational resources. Comprehensive ablation studies
demonstrate the effectiveness of our proposed techniques.
- Abstract(参考訳): 信頼性の高い自律運転システムに不可欠なマルチセンサ融合に基づく3次元占有予測により、3Dシーンのきめ細かい理解が可能になる。
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
しかし、深さ推定は不適切な問題であり、これらの手法の精度と堅牢性を妨げる。
さらに、微粒な占有率予測は広範な計算資源を必要とする。
本稿では,奥行き推定を含まないマルチモーダル融合手法であるoccfusionと,画像特徴の密結合のための対応するポイントクラウドサンプリングアルゴリズムを提案する。
そこで本研究では,複雑なサンプルからより適応的に学習し,小さなオブジェクトや重複するオブジェクトなどの課題領域を対象とした予測を最適化する,アクティブトレーニング手法とアクティブ粗いパイプラインを提案する。
提案手法は,任意の占有予測モデルに自然に拡張することができる。
OpenOccupancyベンチマークの実験は、IoUにおける既存のSOTA(State-of-the-art)マルチモーダル手法をあらゆるカテゴリで超越していることを示している。
さらに、トレーニングと推論の両方のフェーズにおいて、我々のモデルはより効率的であり、はるかに少ない計算資源を必要とする。
包括的アブレーション研究は,提案手法の有効性を示す。
関連論文リスト
- Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields [80.35807140179736]
自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - RealNet: Combining Optimized Object Detection with Information Fusion
Depth Estimation Co-Design Method on IoT [2.9275056713717285]
本稿では,モデル流線形認識アルゴリズム,深度推定アルゴリズム,情報融合を組み合わせた共同設計手法を提案する。
本稿では,リアルタイム要求の高いモバイルプラットフォームに適した手法を提案する。
論文 参考訳(メタデータ) (2022-04-24T08:35:55Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。