論文の概要: METER: a mobile vision transformer architecture for monocular depth
estimation
- arxiv url: http://arxiv.org/abs/2403.08368v1
- Date: Wed, 13 Mar 2024 09:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:22.219575
- Title: METER: a mobile vision transformer architecture for monocular depth
estimation
- Title(参考訳): METER:モノクルディープのための移動型視覚変換器アーキテクチャ
推定
- Authors: L. Papa, P. Russo, and I. Amerini
- Abstract要約: アート推定の状態を達成できる新しい軽量ビジョントランスフォーマアーキテクチャであるMETERを提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation is a fundamental knowledge for autonomous systems that need
to assess their own state and perceive the surrounding environment. Deep
learning algorithms for depth estimation have gained significant interest in
recent years, owing to the potential benefits of this methodology in overcoming
the limitations of active depth sensing systems. Moreover, due to the low cost
and size of monocular cameras, researchers have focused their attention on
monocular depth estimation (MDE), which consists in estimating a dense depth
map from a single RGB video frame. State of the art MDE models typically rely
on vision transformers (ViT) architectures that are highly deep and complex,
making them unsuitable for fast inference on devices with hardware constraints.
Purposely, in this paper, we address the problem of exploiting ViT in MDE on
embedded devices. Those systems are usually characterized by limited memory
capabilities and low-power CPU/GPU. We propose METER, a novel lightweight
vision transformer architecture capable of achieving state of the art
estimations and low latency inference performances on the considered embedded
hardwares: NVIDIA Jetson TX1 and NVIDIA Jetson Nano. We provide a solution
consisting of three alternative configurations of METER, a novel loss function
to balance pixel estimation and reconstruction of image details, and a new data
augmentation strategy to improve the overall final predictions. The proposed
method outperforms previous lightweight works over the two benchmark datasets:
the indoor NYU Depth v2 and the outdoor KITTI.
- Abstract(参考訳): 深さ推定は、自己の状態を評価し、周囲の環境を認識する必要がある自律システムの基本的な知識である。
近年, 深度推定のためのディープラーニングアルゴリズムが注目されている。これは, アクティブ深度検知システムの限界を克服する上で, この手法の潜在的な利点のためである。
さらに、単眼カメラの低コスト化と小型化のため、研究者は単一のRGBビデオフレームから深度マップを推定する単眼深度推定(MDE)に注目している。
最先端のMDEモデルは一般的に、非常に深く複雑な視覚変換器(ViT)アーキテクチャに依存しており、ハードウェア制約のあるデバイスでの高速な推論には適さない。
本稿では,組込みデバイス上でのMDEにおけるViT利用の問題に対処する。
これらのシステムは通常、限られたメモリ能力と低消費電力のCPU/GPUによって特徴づけられる。
本稿では, NVIDIA Jetson TX1 と NVIDIA Jetson Nano という組込みハードウェア上で, 最先端推定と低レイテンシ推論性能を実現する軽量な視覚トランスフォーマアーキテクチャである METER を提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
提案手法は,室内のNYU Depth v2と屋外のKITTIの2つのベンチマークデータセットよりも優れている。
関連論文リスト
- HybridDepth: Robust Metric Depth Fusion by Leveraging Depth from Focus and Single-Image Priors [10.88048563201236]
本稿では,深度推定における重要な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
パイプラインをエンドツーエンドシステムとしてテストし、新たに開発されたモバイルクライアントを使用して焦点スタックをキャプチャし、深さ推定のためにGPU駆動のサーバに送信する。
包括的定量的および定性的分析により、HYBRIDDEPTHは共通のデータセット上での最先端(SOTA)モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-26T00:51:52Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - Lightweight Monocular Depth Estimation via Token-Sharing Transformer [27.69898661818893]
Token-Sharing Transformer (TST) はモノクロ深度推定にTransformerを用いており、特に組み込みデバイスで最適化されている。
NYU Depth v2データセットでは、NVIDIA Jetson Nanoの63.4 FPS、NVIDIA Jetson TX2の142.6 FPSまでの深度マップを、既存の方法よりも低いエラーで提供することができる。
論文 参考訳(メタデータ) (2023-06-09T05:51:40Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems [13.490605853268837]
移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-24T03:26:08Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z) - DepthNet Nano: A Highly Compact Self-Normalizing Neural Network for
Monocular Depth Estimation [76.90627702089357]
DepthNet Nanoは、人間の機械の共同設計戦略を用いて設計された単眼深度推定のためのコンパクトなディープニューラルネットワークである。
提案したDepthNet Nanoは、最先端のネットワークで同等の性能を保ちながら、高い効率のネットワークアーキテクチャを持っている。
論文 参考訳(メタデータ) (2020-04-17T00:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。