論文の概要: VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation
- arxiv url: http://arxiv.org/abs/2504.15095v3
- Date: Sun, 27 Apr 2025 09:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.741456
- Title: VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation
- Title(参考訳): VistaDepth: 長距離深度推定の強化を目的としたバイアスリヘアリングによる周波数変調
- Authors: Mingxia Zhan, Li Zhang, Xiaomeng Chu, Beibei Wang,
- Abstract要約: VistaDepthは適応周波数領域の機能拡張と適応重み付け機構を統合する新しいフレームワークである。
VistaDepth は拡散型 MDE 技術における最先端性能を実現し,特に遠隔地での正確な再構築に優れる。
- 参考スコア(独自算出の注目度): 8.66253032039513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation (MDE) aims to predict per-pixel depth values from a single RGB image. Recent advancements have positioned diffusion models as effective MDE tools by framing the challenge as a conditional image generation task. Despite their progress, these methods often struggle with accurately reconstructing distant depths, due largely to the imbalanced distribution of depth values and an over-reliance on spatial-domain features. To overcome these limitations, we introduce VistaDepth, a novel framework that integrates adaptive frequency-domain feature enhancements with an adaptive weight-balancing mechanism into the diffusion process. Central to our approach is the Latent Frequency Modulation (LFM) module, which dynamically refines spectral responses in the latent feature space, thereby improving the preservation of structural details and reducing noisy artifacts. Furthermore, we implement an adaptive weighting strategy that modulates the diffusion loss in real-time, enhancing the model's sensitivity towards distant depth reconstruction. These innovations collectively result in superior depth perception performance across both distance and detail. Experimental evaluations confirm that VistaDepth achieves state-of-the-art performance among diffusion-based MDE techniques, particularly excelling in the accurate reconstruction of distant regions.
- Abstract(参考訳): 単眼深度推定(MDE)は、1枚のRGB画像から画素ごとの深度値を推定することを目的としている。
近年の進歩は、条件付き画像生成タスクとしてチャレンジをフレーミングすることで、拡散モデルを効果的なMDEツールとして位置づけている。
これらの手法は, 深度値の不均衡分布と空間領域の特徴に対する過度な信頼のため, 遠方深度を正確に再構築するのに苦慮することが多い。
これらの制限を克服するために,適応周波数領域機能拡張と適応重み分散機構を融合した新しいフレームワークであるVistaDepthを紹介した。
提案手法の中心となるのがLFMモジュールであり、遅延特徴空間におけるスペクトル応答を動的に洗練し、構造的詳細の保存を改善し、ノイズのあるアーティファクトを減らす。
さらに、リアルタイムに拡散損失を変調し、遠距離深度再構成に対するモデルの感度を高める適応重み付け戦略を実装した。
これらの革新は、距離と詳細の両方にわたって優れた深度知覚性能をもたらす。
実験により,VistaDepthは拡散型MDE技術において最先端の性能を実現し,特に遠隔域の正確な再構築に優れていたことが確認された。
関連論文リスト
- Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [4.307648859471193]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。
提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。
提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文 参考訳(メタデータ) (2025-05-01T06:17:33Z) - FUSION: Frequency-guided Underwater Spatial Image recOnstructioN [0.0]
水中画像は、色歪み、可視性低下、波長依存性の減衰と散乱による構造的詳細の喪失など、深刻な劣化に悩まされている。
既存の拡張手法は主に空間領域処理に重点を置いており、グローバルな色分布と長距離依存を捉える周波数領域の可能性を無視している。
本稿では,空間領域情報と周波数領域情報を併用した2領域深層学習フレームワーク「フュージョン」を提案する。
論文 参考訳(メタデータ) (2025-04-01T23:16:19Z) - FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.06080108012735]
FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文 参考訳(メタデータ) (2024-12-01T04:59:34Z) - Self-supervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [16.673178271652553]
自己監督型単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は,自己教師付き単眼深度推定のための独特の認知学習プロセスを備えた生成的拡散モデルを用いる。
我々は,KITTIとMake3Dデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation [0.0]
本稿では,学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。
ADDVは異なるRGB画像の深さ分布を動的に感知し、適応的なビンを生成することができる。
また、自己監督型条件下での正規化を実現するために、新しいトレーニング戦略(統一化と強化)も導入する。
論文 参考訳(メタデータ) (2024-04-04T04:22:25Z) - Generating Content for HDR Deghosting from Frequency View [56.103761824603644]
近年の拡散モデル (DM) はHDRイメージング分野に導入されている。
DMは画像全体を推定するために大きなモデルで広範囲の反復を必要とする。
ゴーストフリーHDRイメージングのための低周波数対応拡散(LF-Diff)モデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T01:32:11Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。