論文の概要: The Devil is in the Details: Boosting Guided Depth Super-Resolution via
Rethinking Cross-Modal Alignment and Aggregation
- arxiv url: http://arxiv.org/abs/2401.08123v1
- Date: Tue, 16 Jan 2024 05:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:02:11.991922
- Title: The Devil is in the Details: Boosting Guided Depth Super-Resolution via
Rethinking Cross-Modal Alignment and Aggregation
- Title(参考訳): The Devil is in the details: Boosting Guided Depth Super-Resolution through Rethinking Cross-Modal Alignment and Aggregation
- Authors: Xinni Jiang, Zengsheng Kuang, Chunle Guo, Ruixun Zhang, Lei Cai, Xiao
Fan, Chongyi Li
- Abstract要約: 誘導深度超解像(GDSR)は、同じシーンの高解像度のRGB画像を用いて、行方不明の深度の詳細を復元する。
それまでのアプローチでは、マルチモーダル入力の不均一性と相補性に苦慮し、モーダルなミスアライメント、幾何学的なミスアライメント、特徴選択といった問題を無視してきた。
- 参考スコア(独自算出の注目度): 41.12790340577986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided depth super-resolution (GDSR) involves restoring missing depth details
using the high-resolution RGB image of the same scene. Previous approaches have
struggled with the heterogeneity and complementarity of the multi-modal inputs,
and neglected the issues of modal misalignment, geometrical misalignment, and
feature selection. In this study, we rethink some essential components in GDSR
networks and propose a simple yet effective Dynamic Dual Alignment and
Aggregation network (D2A2). D2A2 mainly consists of 1) a dynamic dual alignment
module that adapts to alleviate the modal misalignment via a learnable domain
alignment block and geometrically align cross-modal features by learning the
offset; and 2) a mask-to-pixel feature aggregate module that uses the gated
mechanism and pixel attention to filter out irrelevant texture noise from RGB
features and combine the useful features with depth features. By combining the
strengths of RGB and depth features while minimizing disturbance introduced by
the RGB image, our method with simple reuse and redesign of basic components
achieves state-of-the-art performance on multiple benchmark datasets. The code
is available at https://github.com/JiangXinni/D2A2.
- Abstract(参考訳): 誘導深度超解像(GDSR)は、同じシーンの高解像度のRGB画像を用いて、行方不明の深度の詳細を復元する。
それまでのアプローチは、マルチモーダル入力の不均一性と相補性に苦慮し、モダルミスアライメント、幾何学的ミスアライメント、特徴選択の問題を無視してきた。
本研究では,GDSRネットワークの基本要素を再考し,シンプルで効果的な動的デュアルアライメント・アグリゲーションネットワーク(D2A2)を提案する。
D2A2は主に
1)学習可能なドメインアライメントブロックを介してモーダルアライメントを緩和し、オフセットを学習して幾何学的にクロスモーダル特徴を整列する動的双対アライメントモジュール
2) マスク・ツー・ピクセル特徴集約モジュールは,rgb特徴から無関係なテクスチャノイズを除去し,有用な特徴を奥行き特徴と組み合わせるために,ゲート機構と画素注意を使用する。
RGB画像による障害を最小限に抑えつつ,RGBの強度と深度特性を組み合わせることで,基本部品の再利用と再設計により,複数のベンチマークデータセット上での最先端性能を実現する。
コードはhttps://github.com/jiangxinni/d2a2で入手できる。
関連論文リスト
- Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Discrete Cosine Transform Network for Guided Depth Map Super-Resolution [19.86463937632802]
目標は、高解像度(HR)RGB画像を使用してエッジとオブジェクトの輪郭に関する余分な情報を提供し、低解像度の深度マップをHR画像にアップサンプリングできるようにすることです。
本稿では,4つのコンポーネントから構成されるDCTNet(Digital Discrete Cosine Transform Network)を提案する。
本手法は,最新手法を越しに,正確かつ人事深度マップを生成できることを示した。
論文 参考訳(メタデータ) (2021-04-14T17:01:03Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。