論文の概要: BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation
- arxiv url: http://arxiv.org/abs/2209.02952v1
- Date: Wed, 7 Sep 2022 06:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:38:41.763611
- Title: BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation
- Title(参考訳): BiFuse++:360度深度推定のための自己監督的で効率的なバイジェクションフュージョン
- Authors: Fu-En Wang, Yu-Hsuan Yeh, Yi-Hsuan Tsai, Wei-Chen Chiu, Min Sun
- Abstract要約: 両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
- 参考スコア(独自算出の注目度): 59.11106101006008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rise of spherical cameras, monocular 360 depth estimation becomes
an important technique for many applications (e.g., autonomous systems). Thus,
state-of-the-art frameworks for monocular 360 depth estimation such as
bi-projection fusion in BiFuse are proposed. To train such a framework, a large
number of panoramas along with the corresponding depth ground truths captured
by laser sensors are required, which highly increases the cost of data
collection. Moreover, since such a data collection procedure is time-consuming,
the scalability of extending these methods to different scenes becomes a
challenge. To this end, self-training a network for monocular depth estimation
from 360 videos is one way to alleviate this issue. However, there are no
existing frameworks that incorporate bi-projection fusion into the
self-training scheme, which highly limits the self-supervised performance since
bi-projection fusion can leverage information from different projection types.
In this paper, we propose BiFuse++ to explore the combination of bi-projection
fusion and the self-training scenario. To be specific, we propose a new fusion
module and Contrast-Aware Photometric Loss to improve the performance of BiFuse
and increase the stability of self-training on real-world videos. We conduct
both supervised and self-supervised experiments on benchmark datasets and
achieve state-of-the-art performance.
- Abstract(参考訳): 球面カメラの台頭により、単眼360度深度推定は多くの応用(例えば自律システム)において重要な技術となる。
そこで,BiFuseにおける複射核融合のような単眼360度深度推定のための最先端フレームワークを提案する。
このような枠組みを訓練するには、レーザーセンサーが捉えた奥行きの真理とともに大量のパノラマが必要であり、データ収集のコストを高くする。
さらに、このようなデータ収集手順は時間を要するため、これらのメソッドを異なるシーンに拡張するスケーラビリティが課題となる。
この目的のために、360度ビデオから単眼深度を推定するためのネットワークを自己学習することは、この問題を緩和する方法の一つだ。
しかし、バイプロジェクション融合を自己学習スキームに組み込む既存のフレームワークは存在せず、バイプロジェクション融合は異なるプロジェクションタイプからの情報を活用できるため、自己教師付きパフォーマンスを非常に制限している。
本稿では,バイジェクション融合と自己学習シナリオを組み合わせたBiFuse++を提案する。
具体的には,実世界の映像における自己学習の安定性を高めるために,新しい融合モジュールとコントラスト認識による測光損失を提案する。
我々は,ベンチマークデータセット上で教師あり,自己教師ありの実験を行い,最先端のパフォーマンスを実現する。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。