論文の概要: UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block
- arxiv url: http://arxiv.org/abs/2507.19948v1
- Date: Sat, 26 Jul 2025 13:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.477676
- Title: UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block
- Title(参考訳): UniCT深度:畳み込み補償VTデュアルSAブロックを用いたイベント画像融合による単眼深度推定
- Authors: Luoxi Jing, Dianxi Shi, Zhe Liu, Songchang Jin, Chunping Qiu, Ziteng Qiao, Yuxian Li, Jianqiang Xia,
- Abstract要約: ローカルおよびグローバルな特徴をモデル化するために,CNNとトランスフォーマーを統一するイベントイメージ融合手法UniCT Depthを提案する。
We show that UniCT Depth are outperforming existing image, event, and fusion-based monocular depth estimation method across key metrics。
- 参考スコア(独自算出の注目度): 6.994911870644179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation plays a crucial role in 3D scene understanding and is extensively used in a wide range of vision tasks. Image-based methods struggle in challenging scenarios, while event cameras offer high dynamic range and temporal resolution but face difficulties with sparse data. Combining event and image data provides significant advantages, yet effective integration remains challenging. Existing CNN-based fusion methods struggle with occlusions and depth disparities due to limited receptive fields, while Transformer-based fusion methods often lack deep modality interaction. To address these issues, we propose UniCT Depth, an event-image fusion method that unifies CNNs and Transformers to model local and global features. We propose the Convolution-compensated ViT Dual SA (CcViT-DA) Block, designed for the encoder, which integrates Context Modeling Self-Attention (CMSA) to capture spatial dependencies and Modal Fusion Self-Attention (MFSA) for effective cross-modal fusion. Furthermore, we design the tailored Detail Compensation Convolution (DCC) Block to improve texture details and enhances edge representations. Experiments show that UniCT Depth outperforms existing image, event, and fusion-based monocular depth estimation methods across key metrics.
- Abstract(参考訳): 深度推定は3次元シーン理解において重要な役割を担い、広範囲の視覚タスクで広く利用されている。
画像ベースの手法は困難なシナリオに苦しむが、イベントカメラは高いダイナミックレンジと時間分解能を提供するが、スパースデータでは困難に直面している。
イベントデータとイメージデータを組み合わせることは大きなメリットがありますが、効果的な統合は依然として困難です。
既存のCNNベースの核融合法は、受容場が限られているため、オクルージョンと深度差に苦しむが、Transformerベースの核融合法は深いモダリティ相互作用を欠くことが多い。
これらの問題に対処するために,CNNとTransformerを統合化して局所的およびグローバルな特徴をモデル化するイベントイメージ融合手法であるUniCT Depthを提案する。
本稿では,空間依存性を捉えるためのコンテキストモデリング自己認識(CMSA)と,効果的な相互融合のためのモーダルフュージョン自己認識(MFSA)を統合するエンコーダ用に設計された,畳み込み補償型ViTデュアルSA(CcViT-DA)ブロックを提案する。
さらに,テクスチャの細部を改良し,エッジ表現を向上させるために,調整されたDetail Compensation Convolution(DCC)ブロックを設計する。
実験の結果、UniCT Depthは既存の画像、イベント、核融合に基づく単分子深度推定法よりも優れていた。
関連論文リスト
- SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。
ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。
提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2025-07-22T23:49:40Z) - DepthFusion: Depth-Aware Hybrid Feature Fusion for LiDAR-Camera 3D Object Detection [32.07206206508925]
最先端のLiDARカメラ3Dオブジェクト検出器は通常、特徴融合に焦点を当てている。
深度が統計的解析や可視化によって異なるため、様々なモーダルが異なる役割を担っていることを最初に観察する。
本稿では,ポイントクラウドとRGB画像の重み付けをガイドするDepth-Aware Hybrid Feature Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-05-12T09:53:00Z) - SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection [24.367371441506116]
ディープニューラルネットワークに基づくマルチモーダル3Dオブジェクト検出は、確かに大きな進歩を遂げている。
しかし,2次元画像から抽出した特徴と3次元点雲から抽出した特徴との間の空間的情報とスケールのずれにより,依然として課題に直面している。
本稿では,3次元から2次元の空間アライメントモジュールと,遅延モードの相互融合モジュールからなる,新しいスケール・スペースアラインド・ラテントフュージョンモデルであるSSLFusionを紹介する。
論文 参考訳(メタデータ) (2025-04-07T15:15:06Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion [3.5940515868907164]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。