論文の概要: Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2211.13202v1
- Date: Wed, 23 Nov 2022 18:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:43:17.380275
- Title: Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation
- Title(参考訳): lite-mono: 自己教師付き単眼深度推定のための軽量cnnおよびトランスフォーマーアーキテクチャ
- Authors: Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle
- Abstract要約: CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
- 参考スコア(独自算出の注目度): 9.967643080731683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation that does not require ground-truth
for training has attracted attention in recent years. It is of high interest to
design lightweight but effective models, so that they can be deployed on edge
devices. Many existing architectures benefit from using heavier backbones at
the expense of model sizes. In this paper we achieve comparable results with a
lightweight architecture. Specifically, we investigate the efficient
combination of CNNs and Transformers, and design a hybrid architecture
Lite-Mono. A Consecutive Dilated Convolutions (CDC) module and a Local-Global
Features Interaction (LGFI) module are proposed. The former is used to extract
rich multi-scale local features, and the latter takes advantage of the
self-attention mechanism to encode long-range global information into the
features. Experiments demonstrate that our full model outperforms Monodepth2 by
a large margin in accuracy, with about 80% fewer trainable parameters.
- Abstract(参考訳): 近年,地道な訓練を必要としない自己監督型単眼深度推定が注目されている。
エッジデバイスにデプロイできるように、軽量で効果的なモデルを設計することは、非常に興味深いことです。
多くの既存アーキテクチャは、モデルサイズを犠牲にして重いバックボーンを使用することで恩恵を受ける。
本稿では,軽量アーキテクチャと同等の結果を得る。
具体的には,CNNとトランスフォーマーの効率的な組み合わせについて検討し,ハイブリッドアーキテクチャLite-Monoを設計する。
連続拡張畳み込み(cdc)モジュールと局所グローバル特徴相互作用(lgfi)モジュールを提案する。
前者はリッチなマルチスケールな局所特徴抽出に用いられ、後者は長距離グローバル情報をその特徴にエンコードする自己認識機構を利用する。
実験では、トレーニング可能なパラメータが約80%減少し、Monodepth2の精度に大きな差があることが示されている。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation [11.513054537848227]
そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
論文 参考訳(メタデータ) (2022-04-29T05:46:20Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Real-time Monocular Depth Estimation with Sparse Supervision on Mobile [2.5425323889482336]
近年、モバイルデバイスの普及に伴い、正確かつモバイルフレンドリーな深度モデルの重要性が高まっている。
キーとなる設計選択と研究によって、既存のアーキテクチャでさえ非常に競争力のあるパフォーマンスを達成できることが示されています。
モデルのバージョンは1Mパラメータを持つDIWで0.1208W、モバイルGPUで44FPSに達する。
論文 参考訳(メタデータ) (2021-05-25T16:33:28Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。