論文の概要: $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.16362v1
- Date: Tue, 17 Mar 2026 10:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.226969
- Title: $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation
- Title(参考訳): D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation
- Authors: Ruizhi Wang, Weihan Li, Zunlei Feng, Haofei Zhang, Mingli Song, Jiayu Wang, Jie Song, Li Sun,
- Abstract要約: リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
- 参考スコア(独自算出の注目度): 72.9912717963138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time, high-fidelity monocular depth estimation from remote sensing imagery is crucial for numerous applications, yet existing methods face a stark trade-off between accuracy and efficiency. Although using Vision Transformer (ViT) backbones for dense prediction is fast, they often exhibit poor perceptual quality. Conversely, diffusion models offer high fidelity but at a prohibitive computational cost. To overcome these limitations, we propose Depth Detail Diffusion for Remote Sensing Monocular Depth Estimation ($D^3$-RSMDE), an efficient framework designed to achieve an optimal balance between speed and quality. Our framework first leverages a ViT-based module to rapidly generate a high-quality preliminary depth map construction, which serves as a structural prior, effectively replacing the time-consuming initial structure generation stage of diffusion models. Based on this prior, we propose a Progressive Linear Blending Refinement (PLBR) strategy, which uses a lightweight U-Net to refine the details in only a few iterations. The entire refinement step operates efficiently in a compact latent space supported by a Variational Autoencoder (VAE). Extensive experiments demonstrate that $D^3$-RSMDE achieves a notable 11.85% reduction in the Learned Perceptual Image Patch Similarity (LPIPS) perceptual metric over leading models like Marigold, while also achieving over a 40x speedup in inference and maintaining VRAM usage comparable to lightweight ViT models.
- Abstract(参考訳): リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにおいて重要であるが、既存の手法は精度と効率のトレードオフに直面する。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
逆に拡散モデルは高い忠実度を提供するが、計算コストは禁忌である。
これらの制約を克服するため、速度と品質の最適なバランスを実現するために設計された効率的なフレームワークであるD^3$-RSMDE(Depth Detail Diffusion for Remote Sensing Monocular Depth Estimation)を提案する。
我々のフレームワークは、まずViTベースのモジュールを活用して、構造上の先行構造として機能する高品質な事前深度マップ構築を迅速に生成し、拡散モデルの時間的初期構造生成段階を効果的に置き換える。
これに基づいて,軽量なU-Netを用いて数イテレーションで詳細を洗練するPLBR(Progressive Linear Blending Refinement)戦略を提案する。
全精細化ステップは、変分オートエンコーダ(VAE)が支持するコンパクトな潜伏空間で効率よく動作する。
大規模な実験によると、$D^3$-RSMDEは、Marigoldのような主要なモデルよりも、LPIPS(Learned Perceptual Image Patch similarity)の知覚基準を11.85%削減し、同時に推論の40倍以上のスピードアップを実現し、軽量VTモデルに匹敵するVRAM使用率を維持する。
関連論文リスト
- Bridging Robustness and Efficiency: Real-Time Low-Light Enhancement via Attention U-Net GAN [0.0]
エッジ展開可能な速度で生成レベルのテクスチャを復元するハイブリッドな注意型U-Net GANを提案する。
提案手法は,効率的なモデルのうち,クラス別LPIPSスコアが0.112であることを示す。
これは遅延拡散モデルよりも40倍のスピードアップを示し、我々のアプローチはほぼリアルタイムなアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-10T10:39:22Z) - DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s [16.456543112614586]
拡散モデルは、知覚品質を向上させることによって高度なビデオ超解像(VSR)を持つ。
本稿では、PixArt-$alpha$に先立って画像の拡散を緩和し、最先端の結果を得るための効率的なVSRフレームワークLiftVSRを提案する。
いくつかの典型的なVSRベンチマークの実験では、LiftVSRは計算コストを大幅に削減して優れた性能を発揮することが示されている。
論文 参考訳(メタデータ) (2025-06-10T07:49:33Z) - Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses [1.086544864007391]
近年のハードウェアにおけるMLアクセラレーション(GPUとNPU)を考慮した補正とコストボリュームへのアプローチを開発する。
提案手法に基づき,MultiHeadDepth と HomoDepth を開発した。
修正されていないイメージを直接処理できるHomoDepthは、エンドツーエンドのレイテンシを44.5%削減する。
論文 参考訳(メタデータ) (2024-11-15T07:43:45Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。