論文の概要: Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network
- arxiv url: http://arxiv.org/abs/2508.00248v1
- Date: Fri, 01 Aug 2025 01:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.70291
- Title: Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network
- Title(参考訳): マルチスケール核融合U型マンバネットワークによる深度マップ超解法
- Authors: Chenggang Guo, Hao Xu, XianMing Wan,
- Abstract要約: 従来の畳み込みニューラルネットワークは、長距離依存の処理に制限がある。
我々は,新しいガイド付き深度マップ超解像フレームワークであるマルチスケール融合U字型マンバモデルを提案する。
提案した MSF-UM は, モデルパラメータ数を著しく削減し, 再現精度も向上した。
- 参考スコア(独自算出の注目度): 4.545298205355719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth map super-resolution technology aims to improve the spatial resolution of low-resolution depth maps and effectively restore high-frequency detail information. Traditional convolutional neural network has limitations in dealing with long-range dependencies and are unable to fully model the global contextual information in depth maps. Although transformer can model global dependencies, its computational complexity and memory consumption are quadratic, which significantly limits its ability to process high-resolution depth maps. In this paper, we propose a multi-scale fusion U-shaped Mamba (MSF-UM) model, a novel guided depth map super-resolution framework. The core innovation of this model is to integrate Mamba's efficient state-space modeling capabilities into a multi-scale U-shaped fusion structure guided by a color image. The structure combining the residual dense channel attention block and the Mamba state space module is designed, which combines the local feature extraction capability of the convolutional layer with the modeling advantage of the state space model for long-distance dependencies. At the same time, the model adopts a multi-scale cross-modal fusion strategy to make full use of the high-frequency texture information from the color image to guide the super-resolution process of the depth map. Compared with existing mainstream methods, the proposed MSF-UM significantly reduces the number of model parameters while achieving better reconstruction accuracy. Extensive experiments on multiple publicly available datasets validate the effectiveness of the model, especially showing excellent generalization ability in the task of large-scale depth map super-resolution.
- Abstract(参考訳): 深度マップ超解像技術は、低分解能深度マップの空間分解能を改善し、高周波詳細情報を効果的に復元することを目的としている。
従来の畳み込みニューラルネットワークは、長距離依存の処理に制限があり、深度マップのグローバルなコンテキスト情報を十分にモデル化することはできない。
変換器はグローバルな依存関係をモデル化できるが、その計算複雑性とメモリ消費は二次的であり、高分解能深度マップの処理能力を著しく制限している。
本稿では,新しい深度マップ超解像フレームワークであるマルチスケール融合U字型マンバ(MSF-UM)モデルを提案する。
このモデルの中核となる革新は、マンバの効率的な状態空間モデリング能力をカラー画像で導かれる多スケールのU字型核融合構造に統合することである。
高密度チャネルアテンションブロックとMamba状態空間モジュールを組み合わせた構造を設計し、畳み込み層の局所的特徴抽出能力と長距離依存に対する状態空間モデルのモデル化の利点を組み合わせた。
同時に、カラー画像からの高周波テクスチャ情報をフル活用して、深度マップの超解像過程を導くために、マルチスケールのクロスモーダル融合戦略を採用する。
従来の主流手法と比較して,提案手法はモデルパラメータ数を著しく削減し,再現精度も向上した。
複数の公開データセットに対する大規模な実験により、モデルの有効性が検証され、特に大規模深度マップ超解法のタスクにおいて、優れた一般化能力を示す。
関連論文リスト
- Towards Lightweight Hyperspectral Image Super-Resolution with Depthwise Separable Dilated Convolutional Network [6.5149222591754725]
ハイパースペクトル画像超解像の課題に対処するために, 軽量な深度分離型拡張畳み込みネットワーク (DSDCN) を導入する。
平均二乗誤差(MSE)、L2ノルム正規化に基づく制約、スペクトル角に基づく損失を組み合わせたカスタム損失関数を提案する。
提案モデルは、2つの公開ハイパースペクトルデータセット上で非常に競争力のある性能を実現する。
論文 参考訳(メタデータ) (2025-05-01T07:57:23Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。
マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。
トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-20T12:36:34Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - DSR-Diff: Depth Map Super-Resolution with Diffusion Model [38.68563026759223]
本稿では,遅延空間内の拡散モデルを用いて,深度マップの超解像誘導を行う新しいCDSRパラダイムを提案する。
提案手法は,最先端手法と比較して,広範囲な実験において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-16T14:18:10Z) - Multi-resolution Monocular Depth Map Fusion by Self-supervised
Gradient-based Composition [14.246972408737987]
推定の利点を多分解能入力と組み合わせた新しい深度マップ融合モジュールを提案する。
我々の軽量深度核融合は1ショットでリアルタイムに動作し、最先端の深度核融合法よりも80倍高速である。
論文 参考訳(メタデータ) (2022-12-03T05:13:50Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。