論文の概要: FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion
- arxiv url: http://arxiv.org/abs/2503.19739v2
- Date: Wed, 26 Mar 2025 06:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:46.046520
- Title: FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion
- Title(参考訳): FUSE: 周波数デカップリングアライメントと劣化ロバスト融合によるラベルなし画像イベント結合単分子深度推定
- Authors: Pihai Sun, Junjun Jiang, Yuanqi Yao, Youyu Chen, Wenbo Zhao, Kui Jiang, Xianming Liu,
- Abstract要約: 画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
- 参考スコア(独自算出の注目度): 63.87313550399871
- License:
- Abstract: Image-event joint depth estimation methods leverage complementary modalities for robust perception, yet face challenges in generalizability stemming from two factors: 1) limited annotated image-event-depth datasets causing insufficient cross-modal supervision, and 2) inherent frequency mismatches between static images and dynamic event streams with distinct spatiotemporal patterns, leading to ineffective feature fusion. To address this dual challenge, we propose Frequency-decoupled Unified Self-supervised Encoder (FUSE) with two synergistic components: The Parameter-efficient Self-supervised Transfer (PST) establishes cross-modal knowledge transfer through latent space alignment with image foundation models, effectively mitigating data scarcity by enabling joint encoding without depth ground truth. Complementing this, we propose the Frequency-Decoupled Fusion module (FreDFuse) to explicitly decouple high-frequency edge features from low-frequency structural components, resolving modality-specific frequency mismatches through physics-aware fusion. This combined approach enables FUSE to construct a universal image-event encoder that only requires lightweight decoder adaptation for target datasets. Extensive experiments demonstrate state-of-the-art performance with 14% and 24.9% improvements in Abs.Rel on MVSEC and DENSE datasets. The framework exhibits remarkable zero-shot adaptability to challenging scenarios including extreme lighting and motion blur, significantly advancing real-world deployment capabilities. The source code for our method is publicly available at: https://github.com/sunpihai-up/FUSE
- Abstract(参考訳): 画像出力継手深度推定法は、頑健な知覚に相補的モダリティを利用するが、2つの要因から生じる一般化可能性の課題に直面している。
1) クロスモーダル監視が不十分な注釈付き画像深度データセット
2) 静的画像と時空間パターンの異なる動的イベントストリームの固有周波数ミスマッチは, 機能融合に寄与する。
この2つの課題に対処するために、パラメータ効率のよい自己監督型トランスファー(PST)は、画像基盤モデルとの遅延空間アライメントによる相互知識伝達を確立し、奥行きの真実を伴わない共同符号化を可能にすることにより、データ不足を効果的に軽減する。
そこで本研究では,周波数分離型核融合モジュール(FreDFuse, Frequency-Decoupled Fusion Module, FreDFuse)を提案する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対して軽量なデコーダ適応のみを必要とするユニバーサルなイメージイベントエンコーダを構築することができる。
MVSECおよびDENSEデータセット上でのAbs.Relの14%と24.9%の改善により、最先端のパフォーマンスが実証された。
このフレームワークは、極端な照明や動きのぼかし、現実世界の展開能力を大幅に向上するといった、挑戦的なシナリオに対して、目覚ましいゼロショット適応性を示す。
私たちのメソッドのソースコードは、https://github.com/sunpihai-up/FUSEで公開されています。
関連論文リスト
- WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning [17.129068060454255]
自律運転や監視といったアプリケーションには、単一イメージのデハジングが不可欠だ。
コントラスト損失と離散ウェーブレット変換を統合した半教師付きデハージングネットワークを提案する。
提案アルゴリズムは,最先端の単一画像復調法と比較して,優れた性能とロバスト性を実現している。
論文 参考訳(メタデータ) (2024-10-07T05:36:11Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Learning Parallax for Stereo Event-based Motion Deblurring [8.201943408103995]
既存のアプローチは、インテンシティ・イメージとイベントの間の完全なピクセルワイド・アライメントに依存している。
我々は,Stereoイベントと強度カメラ(St-EDNet)を併用したイベントベース動作のNetwork of Event-based motionを提案する。
我々はSTEIC(Stereo Event and Intensity Cameras)を用いた新しいデータセットを構築し、現実世界のイベント、強度画像、密度の異なるマップを含む。
論文 参考訳(メタデータ) (2023-09-18T06:51:41Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。