論文の概要: SRFNet: Monocular Depth Estimation with Fine-grained Structure via
Spatial Reliability-oriented Fusion of Frames and Events
- arxiv url: http://arxiv.org/abs/2309.12842v1
- Date: Fri, 22 Sep 2023 12:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:42:20.365915
- Title: SRFNet: Monocular Depth Estimation with Fine-grained Structure via
Spatial Reliability-oriented Fusion of Frames and Events
- Title(参考訳): SRFNet:フレームとイベントの空間的信頼性を指向した融合による微細構造単眼深度推定
- Authors: Tianbo Pan, Zidong Cao, Lin Wang
- Abstract要約: 従来のフレームベースの手法は、ダイナミックレンジの制限と動きのぼかしによる性能低下に悩まされる。
最近の研究は、新しいイベントカメラを活用して、フレームイベントの特徴融合を通じてフレームのモダリティを補完またはガイドしている。
SRFNetは、昼と夜の両方で微細な構造で深度を推定できる。
- 参考スコア(独自算出の注目度): 6.519198915368201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is a crucial task to measure distance relative to
a camera, which is important for applications, such as robot navigation and
self-driving. Traditional frame-based methods suffer from performance drops due
to the limited dynamic range and motion blur. Therefore, recent works leverage
novel event cameras to complement or guide the frame modality via frame-event
feature fusion. However, event streams exhibit spatial sparsity, leaving some
areas unperceived, especially in regions with marginal light changes.
Therefore, direct fusion methods, e.g., RAMNet, often ignore the contribution
of the most confident regions of each modality. This leads to structural
ambiguity in the modality fusion process, thus degrading the depth estimation
performance. In this paper, we propose a novel Spatial Reliability-oriented
Fusion Network (SRFNet), that can estimate depth with fine-grained structure at
both daytime and nighttime. Our method consists of two key technical
components. Firstly, we propose an attention-based interactive fusion (AIF)
module that applies spatial priors of events and frames as the initial masks
and learns the consensus regions to guide the inter-modal feature fusion. The
fused feature are then fed back to enhance the frame and event feature
learning. Meanwhile, it utilizes an output head to generate a fused mask, which
is iteratively updated for learning consensual spatial priors. Secondly, we
propose the Reliability-oriented Depth Refinement (RDR) module to estimate
dense depth with the fine-grained structure based on the fused features and
masks. We evaluate the effectiveness of our method on the synthetic and
real-world datasets, which shows that, even without pretraining, our method
outperforms the prior methods, e.g., RAMNet, especially in night scenes. Our
project homepage: https://vlislab22.github.io/SRFNet.
- Abstract(参考訳): 単眼深度推定は、ロボットナビゲーションや自動運転などのアプリケーションにとって重要な、カメラに対する距離を測定するための重要なタスクである。
従来のフレームベースの手法は、ダイナミックレンジの制限と動きのぼかしによる性能低下に悩まされる。
そのため、近年の研究では、新しいイベントカメラを活用して、フレームイベント機能融合によるフレームモダリティを補完またはガイドしている。
しかし、イベントストリームは空間的スパーシティを示し、特に光が変化している地域では、一部の領域は知覚できない。
したがって、直接融合法(例えばramnet)は、各モダリティの最も自信のある領域の寄与をしばしば無視する。
これにより、モダリティ融合過程における構造的曖昧性が生じ、深さ推定性能が低下する。
本稿では,昼夜ともに細粒度構造の深さを推定できる空間信頼度指向型核融合ネットワーク(srfnet)を提案する。
本手法は2つの重要な技術要素からなる。
まず,初期マスクとしてイベントやフレームの空間的先行を応用したアテンションベースインタラクティブフュージョン(AIF)モジュールを提案し,そのコンセンサス領域を学習し,モーダル間特徴フュージョンを導出する。
融合した機能は、フレームとイベントの特徴学習を強化するために送り返される。
一方、出力ヘッドを利用して融合マスクを生成し、そのマスクを反復的に更新してコンセンサス空間の事前学習を行う。
第二に, 融解した特徴とマスクに基づいて, きめ細粒度構造で深度を推定する信頼性指向深度微細化(RDR)モジュールを提案する。
本手法は合成および実世界のデータセット上での有効性を評価し,事前学習を行わなくても従来の手法,例えばramnet,特に夜間シーンよりも優れていることを示す。
プロジェクトのホームページはhttps://vlislab22.github.io/srfnet。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-10T07:57:05Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - RoutedFusion: Learning Real-time Depth Map Fusion [73.0378509030908]
深度マップ融合のための新しいリアルタイム能動機械学習手法を提案する。
本稿では,通常の核融合エラーを考慮に入れた非線形更新を予測できるニューラルネットワークを提案する。
本ネットワークは2次元深度ルーティングネットワークと3次元深度融合ネットワークから構成されており,センサ固有のノイズや外れ値の処理を効率的に行う。
論文 参考訳(メタデータ) (2020-01-13T16:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。