論文の概要: Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion
- arxiv url: http://arxiv.org/abs/2009.09934v1
- Date: Fri, 11 Sep 2020 18:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:06:31.045407
- Title: Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion
- Title(参考訳): マルチスケールニューラルネットワークと特徴融合を用いた単眼深度推定
- Authors: Abhinav Sagar
- Abstract要約: ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation from monocular images is a challenging problem in computer
vision. In this paper, we tackle this problem using a novel network
architecture using multi scale feature fusion. Our network uses two different
blocks, first which uses different filter sizes for convolution and merges all
the individual feature maps. The second block uses dilated convolutions in
place of fully connected layers thus reducing computations and increasing the
receptive field. We present a new loss function for training the network which
uses a depth regression term, SSIM loss term and a multinomial logistic loss
term combined. We train and test our network on Make 3D dataset, NYU Depth V2
dataset and Kitti dataset using standard evaluation metrics for depth
estimation comprised of RMSE loss and SILog loss. Our network outperforms
previous state of the art methods with lesser parameters.
- Abstract(参考訳): 単眼画像からの深度推定はコンピュータビジョンにおいて難しい問題である。
本稿では,マルチスケール機能融合を用いた新しいネットワークアーキテクチャを用いてこの問題に対処する。
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増加させる。
本稿では,深さ回帰項,ssim損失項,多項ロジスティック損失項を組み合わせたネットワーク学習のための新しい損失関数を提案する。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
我々のネットワークは、より少ないパラメータで従来の手法の状態を上回ります。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Dilated Fully Convolutional Neural Network for Depth Estimation from a
Single Image [1.0131895986034314]
従来のCNNの欠点に対処するために,高度な拡張完全畳み込みニューラルネットワークを提案する。
拡張畳み込みにおける受容野の指数拡大の利点を利用して、我々のモデルは分解能の損失を最小限に抑えることができる。
本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。
論文 参考訳(メタデータ) (2021-03-12T23:19:32Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Dense U-net for super-resolution with shuffle pooling layer [4.397981844057195]
最近の研究は、単一画像超解像(SISR)において大きな進歩を遂げている。
この方法では、高分解能入力画像は、特徴抽出の前に単一のフィルタ、通常最大プーリングを用いて、低分解能空間にダウンスケールされる。
これは準最適であり、情報損失を引き起こすことを実証する。
本研究では,シャッフルプールを用いたDense U-netという最先端の畳み込みニューラルネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T00:59:43Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Bayesian Multi Scale Neural Network for Crowd Counting [0.0]
本稿では,ResNetベースの特徴抽出器,拡張畳み込みを用いたダウンサンプリングブロック,変換畳み込みを用いたアップサンプリングブロックを用いた新しいネットワークを提案する。
本稿では,視点視点問題に対してネットワークを堅牢化する新しいアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2020-07-11T21:43:20Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。