論文の概要: DepthMamba with Adaptive Fusion
- arxiv url: http://arxiv.org/abs/2412.19964v1
- Date: Sat, 28 Dec 2024 01:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:14.799392
- Title: DepthMamba with Adaptive Fusion
- Title(参考訳): アダプティブフュージョンを用いたDepthMamba
- Authors: Zelin Meng, Zhichen Wang,
- Abstract要約: 本研究では,様々な雑音のポーズ設定下での深度推定システムを評価するために,新しいロバストネスベンチマークを提案する。
この課題に対処するために,単一ビューと複数ビューブランチの深さ推定結果を融合した2分岐ネットワークアーキテクチャを提案する。
提案手法は,動的オブジェクトやテクスチャレス領域など,難易度の高いシーンでよく機能する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multi-view depth estimation has achieved impressive performance over various benchmarks. However, almost all current multi-view systems rely on given ideal camera poses, which are unavailable in many real-world scenarios, such as autonomous driving. In this work, we propose a new robustness benchmark to evaluate the depth estimation system under various noisy pose settings. Surprisingly, we find current multi-view depth estimation methods or single-view and multi-view fusion methods will fail when given noisy pose settings. To tackle this challenge, we propose a two-branch network architecture which fuses the depth estimation results of single-view and multi-view branch. In specific, we introduced mamba to serve as feature extraction backbone and propose an attention-based fusion methods which adaptively select the most robust estimation results between the two branches. Thus, the proposed method can perform well on some challenging scenes including dynamic objects, texture-less regions, etc. Ablation studies prove the effectiveness of the backbone and fusion method, while evaluation experiments on challenging benchmarks (KITTI and DDAD) show that the proposed method achieves a competitive performance compared to the state-of-the-art methods.
- Abstract(参考訳): マルチビュー深度推定は、様々なベンチマークで顕著な性能を達成した。
しかし、現在のほとんどのマルチビューシステムは、与えられた理想的なカメラのポーズに依存しており、自律運転のような多くの現実のシナリオでは利用できない。
本研究では,様々な雑音のポーズ設定下での深度推定システムを評価するために,新しいロバストネスベンチマークを提案する。
驚いたことに、現在のマルチビュー深度推定法やシングルビュー、マルチビュー融合法はノイズのあるポーズ設定で失敗する。
この課題に対処するために,単一ビューと複数ビューブランチの深さ推定結果を融合した2分岐ネットワークアーキテクチャを提案する。
具体的には,機能抽出バックボーンとして機能するためにmambaを導入し,両者の最も堅牢な推定結果を適応的に選択するアテンションベース融合法を提案する。
そこで,提案手法は動的オブジェクトやテクスチャレス領域など,いくつかの困難な場面でうまく機能する。
アブレーション研究は, バックボーンとフュージョン法の有効性を実証する一方で, 挑戦的ベンチマーク(KITTI, DDAD)の評価実験により, 提案手法は最先端の手法と比較して競争性能が高いことを示した。
関連論文リスト
- Adaptive Fusion of Single-View and Multi-View Depth for Autonomous
Driving [22.58849429006898]
現在のマルチビュー深度推定法やシングルビューおよびマルチビュー融合法は、ノイズのあるポーズ設定で失敗する。
本稿では,高信頼度なマルチビューと単一ビューの結果を適応的に統合する単一ビュー・多ビュー融合深度推定システムを提案する。
本手法は,ロバストネス試験において,最先端のマルチビュー・フュージョン法より優れる。
論文 参考訳(メタデータ) (2024-03-12T11:18:35Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Multi-View Depth Estimation by Fusing Single-View Depth Probability with
Multi-View Geometry [25.003116148843525]
多視点幾何を用いて一視点深度確率を融合するフレームワークであるMaGNetを提案する。
MaGNet は ScanNet, 7-Scenes, KITTI で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-15T14:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。