論文の概要: MSFNet:Multi-scale features network for monocular depth estimation
- arxiv url: http://arxiv.org/abs/2107.06445v1
- Date: Wed, 14 Jul 2021 01:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 01:29:21.440420
- Title: MSFNet:Multi-scale features network for monocular depth estimation
- Title(参考訳): MSFNet:単眼深度推定のためのマルチスケール特徴ネットワーク
- Authors: Meiqi Pei
- Abstract要約: Multi-scale Features Network (MSFNet) はEDA (Enhanced Diverse Attention) モジュールと Upsample-Stage Fusion (USF) モジュールで構成される。
EDAモジュールは空間的注意法を用いて重要な空間情報を学習する。
USFモジュールは、予測された効果を改善するために、低レベルの詳細情報と高レベルの意味情報を補完する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, monocular depth estimation is applied to understand the
surrounding 3D environment and has made great progress. However, there is an
ill-posed problem on how to gain depth information directly from a single
image. With the rapid development of deep learning, this problem is possible to
be solved. Although more and more approaches are proposed one after another,
most of existing methods inevitably lost details due to continuous downsampling
when mapping from RGB space to depth space. To the end, we design a Multi-scale
Features Network (MSFNet), which consists of Enhanced Diverse Attention (EDA)
module and Upsample-Stage Fusion (USF) module. The EDA module employs the
spatial attention method to learn significant spatial information, while USF
module complements low-level detail information with high-level semantic
information from the perspective of multi-scale feature fusion to improve the
predicted effect. In addition, since the simple samples are always trained to a
better effect first, the hard samples are difficult to converge. Therefore, we
design a batch-loss to assign large loss factors to the harder samples in a
batch. Experiments on NYU-Depth V2 dataset and KITTI dataset demonstrate that
our proposed approach is more competitive with the state-of-the-art methods in
both qualitative and quantitative evaluation.
- Abstract(参考訳): 近年,周囲の3次元環境を理解するために単眼深度推定が適用され,大きな進歩を遂げている。
しかし、1つの画像から直接深度情報を得る方法には不適切な問題がある。
ディープラーニングの急速な発展により、この問題は解決できる。
ますます多くのアプローチが提案されているが、既存の手法の多くは、rgb空間から深度空間へのマッピング時に連続的なダウンサンプリングによって、必然的に詳細を失っている。
最後に,多機能ネットワーク(msfnet,multi-scale features network)の設計を行い,拡張多機能化(eda)モジュールとアップサンプルステージ融合(usf)モジュールからなる。
edaモジュールは空間的注意法を用いて重要な空間情報を学習するが、usfモジュールはマルチスケール特徴融合の観点から低レベルの詳細情報と高レベル意味情報とを補完し、予測効果を改善する。
加えて、単純なサンプルは常により良い効果を得るために訓練されているため、硬いサンプルは収束が難しい。
従って、バッチ内のより難しいサンプルに大きな損失係数を割り当てるためにバッチロスを設計する。
NYU-Depth V2データセットとKITTIデータセットの実験は、我々の提案手法が定性評価と定量的評価の両方において最先端の手法とより競合することを示した。
関連論文リスト
- V-FUSE: Volumetric Depth Map Fusion with Long-Range Constraints [6.7197802356130465]
本稿では,Multi-View Stereo(MVS)アルゴリズムによって生成された深度マップと信頼マップのセットを入力として受け入れ,改良する学習ベースの深度マップ融合フレームワークを提案する。
また、各線に沿った深度仮説探索空間を減らすために、より大きな融合サブネットワークと共に訓練された深度探索ウィンドウ推定サブネットワークを導入する。
本手法は,データから直接,深度コンセンサスと可視性制約の違反をモデル化することを学ぶ。
論文 参考訳(メタデータ) (2023-08-17T00:39:56Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - Learning an Efficient Multimodal Depth Completion Model [11.740546882538142]
RGB画像ガイドによるスパース深度補完は近年広く注目されているが、まだいくつかの問題に直面している。
提案手法は軽量なアーキテクチャで最先端の手法より優れている。
また、MIPI2022 RGB+TOFディープ・コンプリート・チャレンジでも優勝している。
論文 参考訳(メタデータ) (2022-08-23T07:03:14Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z) - EDN: Salient Object Detection via Extremely-Downsampled Network [66.38046176176017]
画像全体のグローバルビューを効果的に学ぶために、極端なダウンサンプリング技術を使用するExtremely-Downsampled Network(EDN)を紹介します。
実験は、ednがリアルタイム速度でsart性能を達成することを実証する。
論文 参考訳(メタデータ) (2020-12-24T04:23:48Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。