Fugu-MT 論文翻訳(概要): OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction

論文の概要: OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction

arxiv url: http://arxiv.org/abs/2403.05329v1
Date: Fri, 8 Mar 2024 14:07:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 13:24:15.160828
Title: OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction
Title（参考訳）: occfusion:3次元占有予測のための深度推定自由マルチセンサー融合
Authors: Ji Zhang and Yiran Ding
Abstract要約: マルチセンサフュージョンに基づく3次元占有予測は、信頼性の高い自律運転システムに不可欠である。従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。我々は,奥行き推定が不要なマルチモーダル融合法であるOccFusionと,画像特徴の密接な統合のための対応する点クラウドサンプリングアルゴリズムを紹介する。
参考スコア（独自算出の注目度）: 5.069242662340813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D occupancy prediction based on multi-sensor fusion, crucial for a reliable autonomous driving system, enables fine-grained understanding of 3D scenes. Previous fusion-based 3D occupancy predictions relied on depth estimation for processing 2D image features. However, depth estimation is an ill-posed problem, hindering the accuracy and robustness of these methods. Furthermore, fine-grained occupancy prediction demands extensive computational resources. We introduce OccFusion, a multi-modal fusion method free from depth estimation, and a corresponding point cloud sampling algorithm for dense integration of image features. Building on this, we propose an active training method and an active coarse to fine pipeline, enabling the model to adaptively learn more from complex samples and optimize predictions specifically for challenging areas such as small or overlapping objects. The active methods we propose can be naturally extended to any occupancy prediction model. Experiments on the OpenOccupancy benchmark show our method surpasses existing state-of-the-art (SOTA) multi-modal methods in IoU across all categories. Additionally, our model is more efficient during both the training and inference phases, requiring far fewer computational resources. Comprehensive ablation studies demonstrate the effectiveness of our proposed techniques.
Abstract（参考訳）: 信頼性の高い自律運転システムに不可欠なマルチセンサ融合に基づく3次元占有予測により、3Dシーンのきめ細かい理解が可能になる。従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。しかし、深さ推定は不適切な問題であり、これらの手法の精度と堅牢性を妨げる。さらに、微粒な占有率予測は広範な計算資源を必要とする。本稿では,奥行き推定を含まないマルチモーダル融合手法であるoccfusionと,画像特徴の密結合のための対応するポイントクラウドサンプリングアルゴリズムを提案する。そこで本研究では,複雑なサンプルからより適応的に学習し,小さなオブジェクトや重複するオブジェクトなどの課題領域を対象とした予測を最適化する,アクティブトレーニング手法とアクティブ粗いパイプラインを提案する。提案手法は,任意の占有予測モデルに自然に拡張することができる。 OpenOccupancyベンチマークの実験は、IoUにおける既存のSOTA(State-of-the-art)マルチモーダル手法をあらゆるカテゴリで超越していることを示している。さらに、トレーニングと推論の両方のフェーズにおいて、我々のモデルはより効率的であり、はるかに少ない計算資源を必要とする。包括的アブレーション研究は,提案手法の有効性を示す。

関連論文リスト

SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2025-07-22T23:49:40Z)
DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion [57.83515140886807]
欠陥認識型3Dポーズ推定の課題について紹介する。 DeProPoseは、トレーニングの複雑さを減らすために、ネットワークアーキテクチャをシンプルにするためのフレキシブルなメソッドである。我々は,新しい3次元ポーズ推定データセットを開発した。
論文参考訳（メタデータ） (2025-02-23T03:22:54Z)
OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文参考訳（メタデータ） (2024-11-06T06:34:27Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction [11.349017382503986]
マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。既存のアプローチのほとんどは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存している。本稿では,3次元物体検出監視を利用して優れた性能を実現する,新しいマルチモーダル占有予測フレームワークであるBEccを提案する。
論文参考訳（メタデータ） (2024-09-30T05:53:31Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。 10種類の3Dデータセットにわたる28の最先端モデルを評価した。本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文参考訳（メタデータ） (2024-03-25T17:59:59Z)
OccFusion: Multi-Sensor Fusion Framework for 3D Semantic Occupancy Prediction [11.33083039877258]
本稿では,3次元占有予測のための新しいセンサ融合フレームワークであるOccFusionを紹介する。ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を高めることができる。
論文参考訳（メタデータ） (2024-03-03T23:46:06Z)
Self-Supervised Depth Completion Guided by 3D Perception and Geometry Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。 NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文参考訳（メタデータ） (2023-12-23T14:19:56Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文参考訳（メタデータ） (2022-03-29T19:11:54Z)
Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文参考訳（メタデータ） (2021-07-29T16:30:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。