論文の概要: FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2509.23733v1
- Date: Sun, 28 Sep 2025 08:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.407375
- Title: FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention
- Title(参考訳): FastViDAR: 代替階層的注意によるリアルタイム全方位深さ推定
- Authors: Hangtian Zhao, Xiang Chen, Yizhe Li, Qianhao Wang, Haibo Lu, Fei Gao,
- Abstract要約: FastVidarは、魚眼カメラの入力を4つ受け取り、完全な深度マップを360ドル(約3万3000円)で作成する新しいフレームワークだ。
ビューをまたいだ機能を効率的に融合する代替階層的注意(AHA)機構を導入する。
本稿では,多視点深度推定を共有正方形座標系に投影する新しいERP融合手法を提案する。
- 参考スコア(独自算出の注目度): 11.852943231959403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose FastViDAR, a novel framework that takes four fisheye camera inputs and produces a full $360^\circ$ depth map along with per-camera depth, fusion depth, and confidence estimates. Our main contributions are: (1) We introduce Alternative Hierarchical Attention (AHA) mechanism that efficiently fuses features across views through separate intra-frame and inter-frame windowed self-attention, achieving cross-view feature mixing with reduced overhead. (2) We propose a novel ERP fusion approach that projects multi-view depth estimates to a shared equirectangular coordinate system to obtain the final fusion depth. (3) We generate ERP image-depth pairs using HM3D and 2D3D-S datasets for comprehensive evaluation, demonstrating competitive zero-shot performance on real datasets while achieving up to 20 FPS on NVIDIA Orin NX embedded hardware. Project page: \href{https://3f7dfc.github.io/FastVidar/}{https://3f7dfc.github.io/FastVidar/}
- Abstract(参考訳): 本稿では,魚眼カメラ入力を4つ受け取り,カメラごとの深度,融合深度,信頼度の推定値とともに,フル360^\circ$の深度マップを生成する新しいフレームワークであるFastViDARを提案する。
1) フレーム内およびフレーム間ウィンドウド・セルフアテンションを通じて、ビュー間の機能を効率的に融合する代替階層的アテンション(AHA)機構を導入し、オーバーヘッドを低減し、クロスビュー機能ミキシングを実現します。
2) 多視点深度推定を共有正方形座標系に投影して最終融合深度を求める新しいERP融合手法を提案する。
(3)HM3Dデータセットと2D3D-Sデータセットを用いてERP画像深度ペアを生成し、NVIDIA Orin NX組み込みハードウェア上で最大20FPSを実現しつつ、実際のデータセット上での競合ゼロショット性能を実証する。
プロジェクトページ: \href{https://3f7dfc.github.io/FastVidar/}{https://3f7dfc.github.io/FastVidar/}
関連論文リスト
- CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection [4.180333673098102]
MDHAは3Dオブジェクト検出のための新しいスパースクエリベースのフレームワークである。
マルチビュー・マルチスケール画像入力からのハイブリッドアンカーを用いた適応型3D出力の提案を行う。
46.4%のmAPと55.0%のNDSをResNet101バックボーンで達成している。
論文 参考訳(メタデータ) (2024-06-25T15:46:39Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。