論文の概要: Lightweight Monocular Depth Estimation via Token-Sharing Transformer
- arxiv url: http://arxiv.org/abs/2306.05682v1
- Date: Fri, 9 Jun 2023 05:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:38:07.255351
- Title: Lightweight Monocular Depth Estimation via Token-Sharing Transformer
- Title(参考訳): トークン共有トランスによる軽量単眼深度推定
- Authors: Dong-Jae Lee, Jae Young Lee, Hyounguk Shon, Eojindl Yi, Yeong-Hun
Park, Sung-Sik Cho, Junmo Kim
- Abstract要約: Token-Sharing Transformer (TST) はモノクロ深度推定にTransformerを用いており、特に組み込みデバイスで最適化されている。
NYU Depth v2データセットでは、NVIDIA Jetson Nanoの63.4 FPS、NVIDIA Jetson TX2の142.6 FPSまでの深度マップを、既存の方法よりも低いエラーで提供することができる。
- 参考スコア(独自算出の注目度): 27.69898661818893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Depth estimation is an important task in various robotics systems and
applications. In mobile robotics systems, monocular depth estimation is
desirable since a single RGB camera can be deployable at a low cost and compact
size. Due to its significant and growing needs, many lightweight monocular
depth estimation networks have been proposed for mobile robotics systems. While
most lightweight monocular depth estimation methods have been developed using
convolution neural networks, the Transformer has been gradually utilized in
monocular depth estimation recently. However, massive parameters and large
computational costs in the Transformer disturb the deployment to embedded
devices. In this paper, we present a Token-Sharing Transformer (TST), an
architecture using the Transformer for monocular depth estimation, optimized
especially in embedded devices. The proposed TST utilizes global token sharing,
which enables the model to obtain an accurate depth prediction with high
throughput in embedded devices. Experimental results show that TST outperforms
the existing lightweight monocular depth estimation methods. On the NYU Depth
v2 dataset, TST can deliver depth maps up to 63.4 FPS in NVIDIA Jetson nano and
142.6 FPS in NVIDIA Jetson TX2, with lower errors than the existing methods.
Furthermore, TST achieves real-time depth estimation of high-resolution images
on Jetson TX2 with competitive results.
- Abstract(参考訳): 深さ推定は様々なロボットシステムや応用において重要な課題である。
移動ロボットシステムでは、単一のRGBカメラを低コストかつコンパクトなサイズで展開できるため、単眼深度推定が望ましい。
その重要性と需要の増大により、多くの軽量な単眼深度推定ネットワークがモバイルロボットシステムのために提案されている。
ほとんどの軽量な単眼深度推定法は畳み込みニューラルネットワークを用いて開発されてきたが、近年では徐々に単眼深度推定に利用されるようになった。
しかし、Transformerの膨大なパラメータと計算コストは、組み込みデバイスへのデプロイメントを妨げている。
本稿では,特に組み込みデバイスにおいて最適化された単眼深度推定用トランスを用いたアーキテクチャであるトークン共有トランス(tst)を提案する。
提案したTSTはグローバルトークン共有を利用して,組み込みデバイスで高いスループットで正確な深度予測を行うことができる。
実験の結果,TSTは既存の軽量分子深度推定法よりも優れていた。
NYU Depth v2データセットでは、NVIDIA Jetson Nanoの63.4 FPS、NVIDIA Jetson TX2の142.6 FPSまでの深度マップを、既存の方法よりも低いエラーで提供することができる。
さらに、TSTはJetson TX2上の高解像度画像のリアルタイム深度推定と競合する結果を得る。
関連論文リスト
- METER: a mobile vision transformer architecture for monocular depth
estimation [0.0]
アート推定の状態を達成できる新しい軽量ビジョントランスフォーマアーキテクチャであるMETERを提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-03-13T09:30:08Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Real-time Monocular Depth Estimation on Embedded Systems [32.40848141360501]
2つの効率的なRT-MonoDepthアーキテクチャとRT-MonoDepth-Sアーキテクチャを提案する。
RT-MonoDepthとRT-MonoDepth-SはNVIDIA Jetson Nanoで18.4&30.5 FPS、Jetson AGX Orinで253.0&364.1 FPSを達成した。
論文 参考訳(メタデータ) (2023-08-21T08:59:59Z) - UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater
Robots [4.157415305926584]
低コスト水中ロボットの3次元認識機能を実現するための高速な単眼深度推定法を提案する。
我々は,自然の水中シーンの画像形成特性に関するドメイン知識を取り入れた,UDepthという新しいエンド・ツー・エンドの深層学習パイプラインを定式化した。
論文 参考訳(メタデータ) (2022-09-26T01:08:36Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。