論文の概要: EGA-Depth: Efficient Guided Attention for Self-Supervised Multi-Camera
Depth Estimation
- arxiv url: http://arxiv.org/abs/2304.03369v1
- Date: Thu, 6 Apr 2023 20:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:49:21.032105
- Title: EGA-Depth: Efficient Guided Attention for Self-Supervised Multi-Camera
Depth Estimation
- Title(参考訳): EGA-Depth: 自己監督型マルチカメラ深度推定のための効率的なガイド付き注意
- Authors: Yunxiao Shi, Hong Cai, Amin Ansari, Fatih Porikli
- Abstract要約: 本稿では,自己監督型マルチカメラ深度推定の効率と精度を向上させる新しい注意アーキテクチャであるEGA-Depthを提案する。
それぞれのカメラに対して、そのビュービューをクエリとして、近隣のビューを相互参照して、このカメラビューに対する情報的特徴を導出する。
- 参考スコア(独自算出の注目度): 45.59727643007449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquitous multi-camera setup on modern autonomous vehicles provides an
opportunity to construct surround-view depth. Existing methods, however, either
perform independent monocular depth estimations on each camera or rely on
computationally heavy self attention mechanisms. In this paper, we propose a
novel guided attention architecture, EGA-Depth, which can improve both the
efficiency and accuracy of self-supervised multi-camera depth estimation. More
specifically, for each camera, we use its perspective view as the query to
cross-reference its neighboring views to derive informative features for this
camera view. This allows the model to perform attention only across views with
considerable overlaps and avoid the costly computations of standard
self-attention. Given its efficiency, EGA-Depth enables us to exploit
higher-resolution visual features, leading to improved accuracy. Furthermore,
EGA-Depth can incorporate more frames from previous time steps as it scales
linearly w.r.t. the number of views and frames. Extensive experiments on two
challenging autonomous driving benchmarks nuScenes and DDAD demonstrate the
efficacy of our proposed EGA-Depth and show that it achieves the new
state-of-the-art in self-supervised multi-camera depth estimation.
- Abstract(参考訳): 現代の自動運転車のユビキタスなマルチカメラ設定は、サラウンドビュー深度を構築する機会を提供する。
しかし、既存の方法は、それぞれのカメラで独立して単眼深度推定を行うか、計算的に重い自己注意機構に依存する。
本稿では,自己監督型マルチカメラ深度推定の効率と精度を両立させる新しい注意アーキテクチャであるEGA-Depthを提案する。
具体的には、それぞれのカメラに対して、そのビュービューをクエリとして、隣接するビューを相互参照して、このカメラビューに対する情報的特徴を導出します。
これにより、モデルはかなりの重複のあるビューにのみ注意を向けることができ、標準の自己注意のコスト計算を避けることができる。
効率を考えると、EGA-Depthは高解像度の視覚的特徴を活用でき、精度が向上する。
さらに、EGA-Depthは、ビューとフレームの数を線形に拡大するにつれて、以前のタイムステップからより多くのフレームを組み込むことができる。
2つの挑戦的自律走行ベンチマーク nuScenes と DDAD による大規模な実験により,提案した EGA-Depth の有効性が実証された。
関連論文リスト
- Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文 参考訳(メタデータ) (2022-09-07T06:24:21Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Full Surround Monodepth from Multiple Cameras [31.145598985137468]
自己監督単眼深度と自我運動推定を大型フォトベースラインマルチカメラリグに拡張します。
私たちは、典型的なLiDARスキャナーと同じ全周360度の視野をカバーする、高密度で一貫性のあるスケールアウェアポイントクラウドを生成する単一のネットワークを学びます。
論文 参考訳(メタデータ) (2021-03-31T22:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。