論文の概要: DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning
- arxiv url: http://arxiv.org/abs/2506.14709v1
- Date: Tue, 17 Jun 2025 16:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.582353
- Title: DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning
- Title(参考訳): DiFuse-Net:ウィンドウ双方向パララックスアテンションとクロスモーダルトランスファー学習を用いたRGBとデュアルピクセル深さ推定
- Authors: Kunal Swami, Debtanu Gupta, Amrit Kumar Muduli, Chirag Jaiswal, Pankaj Kumar Bajpai,
- Abstract要約: DiFuse-Netは、分散RGBとDPベースの深さ推定のための新しい分離ネットワーク設計である。
WBiPAMは、小さな開口部を持つスマートフォンカメラに特有の微妙なDP格差を捉えます。
分離エンコーダはRGB画像から文脈情報を抽出し、これらの特徴を融合させて深度予測を強化する。
- 参考スコア(独自算出の注目度): 1.456352735394398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is crucial for intelligent systems, enabling applications from autonomous navigation to augmented reality. While traditional stereo and active depth sensors have limitations in cost, power, and robustness, dual-pixel (DP) technology, ubiquitous in modern cameras, offers a compelling alternative. This paper introduces DiFuse-Net, a novel modality decoupled network design for disentangled RGB and DP based depth estimation. DiFuse-Net features a window bi-directional parallax attention mechanism (WBiPAM) specifically designed to capture the subtle DP disparity cues unique to smartphone cameras with small aperture. A separate encoder extracts contextual information from the RGB image, and these features are fused to enhance depth prediction. We also propose a Cross-modal Transfer Learning (CmTL) mechanism to utilize large-scale RGB-D datasets in the literature to cope with the limitations of obtaining large-scale RGB-DP-D dataset. Our evaluation and comparison of the proposed method demonstrates its superiority over the DP and stereo-based baseline methods. Additionally, we contribute a new, high-quality, real-world RGB-DP-D training dataset, named Dual-Camera Dual-Pixel (DCDP) dataset, created using our novel symmetric stereo camera hardware setup, stereo calibration and rectification protocol, and AI stereo disparity estimation method.
- Abstract(参考訳): 深さ推定はインテリジェントシステムにとって不可欠であり、自律的なナビゲーションから拡張現実へのアプリケーションを可能にする。
従来のステレオとアクティブな深度センサーは、コスト、パワー、ロバスト性に制限があるが、現代のカメラで広く使われているデュアルピクセル(DP)技術は、魅力的な代替手段を提供する。
本稿では,不整合RGBとDPに基づく深さ推定のための新しいモダリティデカップリングネットワークであるDiFuse-Netを提案する。
DiFuse-Netは、小さな開口を持つスマートフォンカメラに特有の微妙なDP格差を捉えるために設計された、ウィンドウ双方向パララックスアテンションメカニズム(WBiPAM)を備えている。
分離エンコーダはRGB画像から文脈情報を抽出し、これらの特徴を融合させて深度予測を強化する。
また,大規模RGB-DP-Dデータセット取得の限界に対処するために,文献中の大規模RGB-Dデータセットを利用するクロスモーダルトランスファーラーニング(CmTL)機構を提案する。
提案手法の評価と比較は,DP法およびステレオベース法よりも優れていることを示す。
さらに、新しい対称ステレオカメラハードウェアセットアップ、ステレオキャリブレーションおよび修正プロトコル、AIステレオ異性推定手法を用いて作成した、Dual-Camera Dual-Pixel (DCDP)データセットという、高品質で実世界のRGB-DP-Dトレーニングデータセットをコントリビュートする。
関連論文リスト
- Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Passive Snapshot Coded Aperture Dual-Pixel RGB-D Imaging [25.851398356458425]
単発3Dセンシングは、顕微鏡、医用画像、手術ナビゲーション、自律運転など、多くの応用分野において有用である。
画像レンズに符号化開口とDPセンサを併用したCADS(Coded Aperture Dual-Pixel Sensing)を提案する。
以上の結果から,ALF(All-in-focus)推定では1.5dBPSNRが改善し,DPセンシングでは5-6%の深さ推定精度が得られた。
論文 参考訳(メタデータ) (2024-02-28T06:45:47Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences [12.799443250845224]
タイムスタンプを$rm SE(3)$要素にマッピングする暗黙のネットワークである。
提案アルゴリズムは,(1)時間的関数フィッティング,(2)放射場ブートストレッピング,(3)結合ポーズ誤差補償,および放射場改良の3段階からなる。
また,ドローンによってキャプチャされた実世界の非同期RGB-Dシーケンスに対して,定性的に改善された結果を示す。
論文 参考訳(メタデータ) (2022-11-14T15:37:27Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。