論文の概要: BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation
- arxiv url: http://arxiv.org/abs/2209.02952v1
- Date: Wed, 7 Sep 2022 06:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:38:41.763611
- Title: BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation
- Title(参考訳): BiFuse++:360度深度推定のための自己監督的で効率的なバイジェクションフュージョン
- Authors: Fu-En Wang, Yu-Hsuan Yeh, Yi-Hsuan Tsai, Wei-Chen Chiu, Min Sun
- Abstract要約: 両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
- 参考スコア(独自算出の注目度): 59.11106101006008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rise of spherical cameras, monocular 360 depth estimation becomes
an important technique for many applications (e.g., autonomous systems). Thus,
state-of-the-art frameworks for monocular 360 depth estimation such as
bi-projection fusion in BiFuse are proposed. To train such a framework, a large
number of panoramas along with the corresponding depth ground truths captured
by laser sensors are required, which highly increases the cost of data
collection. Moreover, since such a data collection procedure is time-consuming,
the scalability of extending these methods to different scenes becomes a
challenge. To this end, self-training a network for monocular depth estimation
from 360 videos is one way to alleviate this issue. However, there are no
existing frameworks that incorporate bi-projection fusion into the
self-training scheme, which highly limits the self-supervised performance since
bi-projection fusion can leverage information from different projection types.
In this paper, we propose BiFuse++ to explore the combination of bi-projection
fusion and the self-training scenario. To be specific, we propose a new fusion
module and Contrast-Aware Photometric Loss to improve the performance of BiFuse
and increase the stability of self-training on real-world videos. We conduct
both supervised and self-supervised experiments on benchmark datasets and
achieve state-of-the-art performance.
- Abstract(参考訳): 球面カメラの台頭により、単眼360度深度推定は多くの応用(例えば自律システム)において重要な技術となる。
そこで,BiFuseにおける複射核融合のような単眼360度深度推定のための最先端フレームワークを提案する。
このような枠組みを訓練するには、レーザーセンサーが捉えた奥行きの真理とともに大量のパノラマが必要であり、データ収集のコストを高くする。
さらに、このようなデータ収集手順は時間を要するため、これらのメソッドを異なるシーンに拡張するスケーラビリティが課題となる。
この目的のために、360度ビデオから単眼深度を推定するためのネットワークを自己学習することは、この問題を緩和する方法の一つだ。
しかし、バイプロジェクション融合を自己学習スキームに組み込む既存のフレームワークは存在せず、バイプロジェクション融合は異なるプロジェクションタイプからの情報を活用できるため、自己教師付きパフォーマンスを非常に制限している。
本稿では,バイジェクション融合と自己学習シナリオを組み合わせたBiFuse++を提案する。
具体的には,実世界の映像における自己学習の安定性を高めるために,新しい融合モジュールとコントラスト認識による測光損失を提案する。
我々は,ベンチマークデータセット上で教師あり,自己教師ありの実験を行い,最先端のパフォーマンスを実現する。
関連論文リスト
- Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using
transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - EGA-Depth: Efficient Guided Attention for Self-Supervised Multi-Camera
Depth Estimation [45.59727643007449]
本稿では,自己監督型マルチカメラ深度推定の効率と精度を向上させる新しい注意アーキテクチャであるEGA-Depthを提案する。
それぞれのカメラに対して、そのビュービューをクエリとして、近隣のビューを相互参照して、このカメラビューに対する情報的特徴を導出する。
論文 参考訳(メタデータ) (2023-04-06T20:50:28Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。