論文の概要: Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios
- arxiv url: http://arxiv.org/abs/2402.11826v1
- Date: Mon, 19 Feb 2024 04:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:29:12.229543
- Title: Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios
- Title(参考訳): depths: 挑戦的シナリオのためのマルチモーダル融合フレームワーク
- Authors: Jialei Xu, Xianming Liu, Junjun Jiang, Kui Jiang, Rui Li, Kai Cheng,
Xiangyang Ji
- Abstract要約: 本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
- 参考スコア(独自算出の注目度): 103.72094710263656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation from RGB images plays a pivotal role in 3D vision.
However, its accuracy can deteriorate in challenging environments such as
nighttime or adverse weather conditions. While long-wave infrared cameras offer
stable imaging in such challenging conditions, they are inherently
low-resolution, lacking rich texture and semantics as delivered by the RGB
image. Current methods focus solely on a single modality due to the
difficulties to identify and integrate faithful depth cues from both sources.
To address these issues, this paper presents a novel approach that identifies
and integrates dominant cross-modality depth features with a learning-based
framework. Concretely, we independently compute the coarse depth maps with
separate networks by fully utilizing the individual depth cues from each
modality. As the advantageous depth spreads across both modalities, we propose
a novel confidence loss steering a confidence predictor network to yield a
confidence map specifying latent potential depth areas. With the resulting
confidence map, we propose a multi-modal fusion network that fuses the final
depth in an end-to-end manner. Harnessing the proposed pipeline, our method
demonstrates the ability of robust depth estimation in a variety of difficult
scenarios. Experimental results on the challenging MS$^2$ and ViViD++ datasets
demonstrate the effectiveness and robustness of our method.
- Abstract(参考訳): RGB画像からの単眼深度推定は3次元視覚において重要な役割を果たす。
しかし、夜間や悪天候などの困難な環境では精度が低下する可能性がある。
ロングウェーブ赤外線カメラは、このような困難な状況下で安定した撮像を提供するが、本質的に低解像度であり、rgb画像によってもたらされるようなテクスチャやセマンティクスを欠いている。
現在の方法は、両方のソースから忠実な深さの手がかりを識別し統合することが困難であるため、単一のモダリティのみに焦点を当てている。
これらの課題に対処するため,本論文では,支配的なモダリティ間深度特徴を学習ベースのフレームワークで識別し,統合する手法を提案する。
具体的には,各モダリティからの個々の深さの手がかりを十分に活用し,各ネットワークの粗い深さマップを独立に計算する。
両モードにまたがる有利な深さが広がるにつれて,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼度マップを作成する新しい信頼度損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
本手法は,提案するパイプラインを利用して,様々な困難シナリオにおいてロバストな深さ推定を行う能力を示す。
挑戦的なMS$^2$およびViViD++データセットの実験結果から,本手法の有効性とロバスト性を示す。
関連論文リスト
- Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions [30.148969711689773]
本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。
我々は,包括的課題と関連する深度情報を用いて,新たなユーザ定義シーンを体系的に生成する。
これは、深度認識制御による最先端のテキスト・画像拡散モデルを活用することで実現される。
論文 参考訳(メタデータ) (2024-07-23T17:59:59Z) - Transparent Object Depth Completion [11.825680661429825]
理解と操作のための透明な物体の認識は、依然として大きな課題である。
深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明な物体には適さない。
本稿では,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:38:06Z) - Adaptive Fusion of Single-View and Multi-View Depth for Autonomous
Driving [22.58849429006898]
現在のマルチビュー深度推定法やシングルビューおよびマルチビュー融合法は、ノイズのあるポーズ設定で失敗する。
本稿では,高信頼度なマルチビューと単一ビューの結果を適応的に統合する単一ビュー・多ビュー融合深度推定システムを提案する。
本手法は,ロバストネス試験において,最先端のマルチビュー・フュージョン法より優れる。
論文 参考訳(メタデータ) (2024-03-12T11:18:35Z) - Fully Self-Supervised Depth Estimation from Defocus Clue [79.63579768496159]
スパース焦点スタックから深度を純粋に推定する自己教師型フレームワークを提案する。
筆者らのフレームワークは,深度とAIF画像の接地構造の必要性を回避し,より優れた予測を得られることを示す。
論文 参考訳(メタデータ) (2023-03-19T19:59:48Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular
3D Object Detection [37.37316176663782]
本研究では,モノクロ3次元画像のサブタスクから視覚的手がかりを完全に探索する深度問題解決システムを提案する。
提案手法は,KITTIの3次元オブジェクト検出ベンチマークにおいて,テスト分割のモードレベルに対して,現行のベストメソッドを20%以上上回っている。
論文 参考訳(メタデータ) (2022-05-19T08:12:55Z) - End-to-end Learning for Joint Depth and Image Reconstruction from
Diffracted Rotation [10.896567381206715]
回折回転から深度を学習する新しいエンド・ツー・エンド学習手法を提案する。
提案手法は, 単分子深度推定のタスクにおいて既存の手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。
論文 参考訳(メタデータ) (2022-04-14T16:14:37Z) - Robust Depth Completion with Uncertainty-Driven Loss Functions [60.9237639890582]
本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。
提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSEの計測値を用いて最先端のロバスト性性能を達成した。
論文 参考訳(メタデータ) (2021-12-15T05:22:34Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。