論文の概要: MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2406.04532v1
- Date: Thu, 6 Jun 2024 22:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 17:57:38.780643
- Title: MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation
- Title(参考訳): MambaDepth: 自己監督型微細構造単分子深さ推定における長距離依存性の強化
- Authors: Ionuţ Grigore, Călin-Adrian Popa,
- Abstract要約: MambaDepthは自己監督深度推定に適した多目的ネットワークである。
MambaDepthは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせる。
MambaDepthは、Make3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of self-supervised depth estimation, Convolutional Neural Networks (CNNs) and Transformers have traditionally been dominant. However, both architectures struggle with efficiently handling long-range dependencies due to their local focus or computational demands. To overcome this limitation, we present MambaDepth, a versatile network tailored for self-supervised depth estimation. Drawing inspiration from the strengths of the Mamba architecture, renowned for its adept handling of lengthy sequences and its ability to capture global context efficiently through a State Space Model (SSM), we introduce MambaDepth. This innovative architecture combines the U-Net's effectiveness in self-supervised depth estimation with the advanced capabilities of Mamba. MambaDepth is structured around a purely Mamba-based encoder-decoder framework, incorporating skip connections to maintain spatial information at various levels of the network. This configuration promotes an extensive feature learning process, enabling the capture of fine details and broader contexts within depth maps. Furthermore, we have developed a novel integration technique within the Mamba blocks to facilitate uninterrupted connectivity and information flow between the encoder and decoder components, thereby improving depth accuracy. Comprehensive testing across the established KITTI dataset demonstrates MambaDepth's superiority over leading CNN and Transformer-based models in self-supervised depth estimation task, allowing it to achieve state-of-the-art performance. Moreover, MambaDepth proves its superior generalization capacities on other datasets such as Make3D and Cityscapes. MambaDepth's performance heralds a new era in effective long-range dependency modeling for self-supervised depth estimation.
- Abstract(参考訳): 自己教師型深度推定の分野では、畳み込みニューラルネットワーク(CNN)とトランスフォーマーが伝統的に支配的であった。
しかし、どちらのアーキテクチャも、局所的な焦点や計算上の要求のために、長距離依存を効率的に扱うのに苦労している。
この制限を克服するために,自己監督深度推定に適した多目的ネットワークであるMambaDepthを提案する。
マンバアーキテクチャの長大性から着想を得た上で,その長大なシーケンス処理と,ステートスペースモデル(SSM)を通してグローバルなコンテキストを効率的に捉える能力について紹介する。
この革新的なアーキテクチャは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせたものである。
MambaDepthは純粋にMambaベースのエンコーダデコーダフレームワークを中心に構成されており、ネットワークの様々なレベルで空間情報を維持するためにスキップ接続を組み込んでいる。
この構成は広範な特徴学習プロセスを促進し、ディープマップ内の詳細な詳細とより広いコンテキストをキャプチャすることを可能にする。
さらに,エンコーダとデコーダコンポーネント間の不断接続や情報フローを容易にし,奥行き精度を向上させるため,Mambaブロック内での新たな統合手法を開発した。
確立されたKITTIデータセット全体にわたる包括的なテストは、自己監督深度推定タスクにおいて、MambaDepthがCNNとTransformerベースのモデルをリードするよりも優れていることを示し、最先端のパフォーマンスを達成することができる。
さらに、MambaDepthはMake3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。
MambaDepthのパフォーマンスは、自己監督深度推定のための効果的な長距離依存性モデリングの新しい時代を告げる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition [42.4241558556591]
本稿では,画像の局所的相関と静脈特徴表現のためのトークン間のグローバル依存性を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。
第3に,MHMambaブランチ(MHMamba),FIU(Feature Iteration Unit),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。
最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索する。
論文 参考訳(メタデータ) (2024-08-11T10:42:22Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-01-19T06:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。