論文の概要: VistaDepth: Frequency Modulation with Bias Reweighting for Enhanced Far-range Depth Estimation
- arxiv url: http://arxiv.org/abs/2504.15095v4
- Date: Wed, 30 Jul 2025 09:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:50.972627
- Title: VistaDepth: Frequency Modulation with Bias Reweighting for Enhanced Far-range Depth Estimation
- Title(参考訳): VistaDepth: 長距離深度推定のためのバイアス重み付けによる周波数変調
- Authors: Mingxia Zhan, Li Zhang, Xiaomeng Chu, Beibei Wang, Yanyong Zhang,
- Abstract要約: VistaDepthは、遠方のビスタを正確に再構築する能力によって名付けられた、新しいフレームワークである。
本稿では,適応重みを潜在空間の拡散損失に直接適用する機構であるBiasMapを紹介する。
実験により,VistaDepthは拡散型MDEの最先端性能を実現することが示された。
- 参考スコア(独自算出の注目度): 13.13321690410482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation predicts per-pixel depth from a single RGB image. While recent methods have shown promise by leveraging diffusion models, they often struggle to accurately reconstruct far-range regions. This difficulty stems from two compounding factors. First, the standard spatially uniform diffusion objective fails to adapt to the varying frequency content across a depth map. Second, the long-tail depth distribution heavily biases models toward near-range regions. To address these limitations, we introduce VistaDepth, a novel framework named for its ability to accurately reconstruct far-range vistas, which integrates adaptive frequency-domain feature processing with an adaptive loss-balancing mechanism into the diffusion pipeline. Central to our approach is the Latent Frequency Modulation module, which dynamically refines spectral responses in the latent feature space, effectively preserving structural detail. Additionally, we introduce BiasMap, a mechanism that applies adaptive weights directly to the diffusion loss in the latent space, focusing supervision on under-represented far-range regions. These innovations collectively achieve superior depth perception performance across near- and far-range depths while preserving fine detail. Experiments show that VistaDepth achieves state-of-the-art performance for diffusion-based MDE, particularly excelling in reconstructing detailed and accurate depth in far-range regions.
- Abstract(参考訳): 単眼深度推定は1枚のRGB画像から画素あたりの深度を予測する。
近年の手法では拡散モデルの活用が期待できるが、遠距離領域の正確な再構築に苦慮することが多い。
この難しさは2つの複合要因に起因している。
第一に、標準空間的均一な拡散目標は、深度マップにまたがる様々な周波数内容に適応しない。
第二に、長尾深度分布はモデルから近距離領域への偏りが大きい。
これらの制約に対処するために,適応周波数領域特徴処理と適応損失分散機構を拡散パイプラインに統合した,遠距離ビスタを正確に再構築する機能を備えた新しいフレームワークであるVistaDepthを紹介した。
我々のアプローチの中心は、潜在特徴空間におけるスペクトル応答を動的に洗練し、構造的詳細を効果的に保存する潜時周波数変調モジュールである。
さらに,適応重みを潜在空間の拡散損失に直接適用する機構であるBiasMapを導入する。
これらの革新は、細部を保存しながら、近距離および遠距離の深度にわたって優れた深度知覚性能を達成する。
実験により,VistaDepthは拡散型MDEの最先端性能を実現し,特に遠隔地における詳細かつ正確な深度の再構築に優れていた。
関連論文リスト
- Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [4.307648859471193]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。
提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。
提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文 参考訳(メタデータ) (2025-05-01T06:17:33Z) - FUSION: Frequency-guided Underwater Spatial Image recOnstructioN [0.0]
水中画像は、色歪み、可視性低下、波長依存性の減衰と散乱による構造的詳細の喪失など、深刻な劣化に悩まされている。
既存の拡張手法は主に空間領域処理に重点を置いており、グローバルな色分布と長距離依存を捉える周波数領域の可能性を無視している。
本稿では,空間領域情報と周波数領域情報を併用した2領域深層学習フレームワーク「フュージョン」を提案する。
論文 参考訳(メタデータ) (2025-04-01T23:16:19Z) - FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.06080108012735]
FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文 参考訳(メタデータ) (2024-12-01T04:59:34Z) - Self-supervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [16.673178271652553]
自己監督型単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は,自己教師付き単眼深度推定のための独特の認知学習プロセスを備えた生成的拡散モデルを用いる。
我々は,KITTIとMake3Dデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation [0.0]
本稿では,学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。
ADDVは異なるRGB画像の深さ分布を動的に感知し、適応的なビンを生成することができる。
また、自己監督型条件下での正規化を実現するために、新しいトレーニング戦略(統一化と強化)も導入する。
論文 参考訳(メタデータ) (2024-04-04T04:22:25Z) - Generating Content for HDR Deghosting from Frequency View [56.103761824603644]
近年の拡散モデル (DM) はHDRイメージング分野に導入されている。
DMは画像全体を推定するために大きなモデルで広範囲の反復を必要とする。
ゴーストフリーHDRイメージングのための低周波数対応拡散(LF-Diff)モデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T01:32:11Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。