Fugu-MT 論文翻訳(概要): VistaDepth: Frequency Modulation with Bias Reweighting for Enhanced Far-range Depth Estimation

論文の概要: VistaDepth: Frequency Modulation with Bias Reweighting for Enhanced Far-range Depth Estimation

arxiv url: http://arxiv.org/abs/2504.15095v4
Date: Wed, 30 Jul 2025 09:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 14:05:50.972627
Title: VistaDepth: Frequency Modulation with Bias Reweighting for Enhanced Far-range Depth Estimation
Title（参考訳）: VistaDepth: 長距離深度推定のためのバイアス重み付けによる周波数変調
Authors: Mingxia Zhan, Li Zhang, Xiaomeng Chu, Beibei Wang, Yanyong Zhang,
Abstract要約: VistaDepthは、遠方のビスタを正確に再構築する能力によって名付けられた、新しいフレームワークである。本稿では,適応重みを潜在空間の拡散損失に直接適用する機構であるBiasMapを紹介する。実験により,VistaDepthは拡散型MDEの最先端性能を実現することが示された。
参考スコア（独自算出の注目度）: 13.13321690410482
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular depth estimation predicts per-pixel depth from a single RGB image. While recent methods have shown promise by leveraging diffusion models, they often struggle to accurately reconstruct far-range regions. This difficulty stems from two compounding factors. First, the standard spatially uniform diffusion objective fails to adapt to the varying frequency content across a depth map. Second, the long-tail depth distribution heavily biases models toward near-range regions. To address these limitations, we introduce VistaDepth, a novel framework named for its ability to accurately reconstruct far-range vistas, which integrates adaptive frequency-domain feature processing with an adaptive loss-balancing mechanism into the diffusion pipeline. Central to our approach is the Latent Frequency Modulation module, which dynamically refines spectral responses in the latent feature space, effectively preserving structural detail. Additionally, we introduce BiasMap, a mechanism that applies adaptive weights directly to the diffusion loss in the latent space, focusing supervision on under-represented far-range regions. These innovations collectively achieve superior depth perception performance across near- and far-range depths while preserving fine detail. Experiments show that VistaDepth achieves state-of-the-art performance for diffusion-based MDE, particularly excelling in reconstructing detailed and accurate depth in far-range regions.
Abstract（参考訳）: 単眼深度推定は1枚のRGB画像から画素あたりの深度を予測する。近年の手法では拡散モデルの活用が期待できるが、遠距離領域の正確な再構築に苦慮することが多い。この難しさは2つの複合要因に起因している。第一に、標準空間的均一な拡散目標は、深度マップにまたがる様々な周波数内容に適応しない。第二に、長尾深度分布はモデルから近距離領域への偏りが大きい。これらの制約に対処するために,適応周波数領域特徴処理と適応損失分散機構を拡散パイプラインに統合した,遠距離ビスタを正確に再構築する機能を備えた新しいフレームワークであるVistaDepthを紹介した。我々のアプローチの中心は、潜在特徴空間におけるスペクトル応答を動的に洗練し、構造的詳細を効果的に保存する潜時周波数変調モジュールである。さらに,適応重みを潜在空間の拡散損失に直接適用する機構であるBiasMapを導入する。これらの革新は、細部を保存しながら、近距離および遠距離の深度にわたって優れた深度知覚性能を達成する。実験により,VistaDepthは拡散型MDEの最先端性能を実現し,特に遠隔地における詳細かつ正確な深度の再構築に優れていた。

関連論文リスト

From Bands to Depth: Understanding Bathymetry Decisions on Sentinel-2 [0.23488056916440855]
我々は,スウィントランスフォーマーに基づくU-Netモデル(Swin-BathyUNet)を分析し,それがどのように深みを推測し,いつその予測が信頼できるかを理解する。
論文参考訳（メタデータ） (2026-01-19T00:52:22Z)
UDPNet: Unleashing Depth-based Priors for Robust Image Dehazing [77.10640210751981]
UDPNetは、大規模で事前訓練された深度推定モデルDepthAnything V2から深度に基づく事前情報を活用する一般的なフレームワークである。提案手法は,様々なシナリオにまたがる深度認識デハージングのための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2026-01-11T13:29:02Z)
S2ML: Spatio-Spectral Mutual Learning for Depth Completion [56.26679539288063]
RGB-Dカメラで撮影した生深度画像は、弱い反射、境界影、アーティファクトによって不完全な深度値に悩まされることが多い。既存の手法では、画像領域の深度補完によってこの問題に対処するが、それらは生の深度画像の物理的特性を見落としている。本研究では,空間領域と周波数領域の両方の利点を両立させるため,S2ML(Spatio-Spectral Mutual Learning framework)を提案する。
論文参考訳（メタデータ） (2025-11-08T15:01:55Z)
Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文参考訳（メタデータ） (2025-07-02T01:22:46Z)
StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [53.05314852577144]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。実験の結果、StateSpaceDiffuserは強力な拡散のみのベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-05-28T11:27:54Z)
Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [4.307648859471193]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文参考訳（メタデータ） (2025-05-01T06:17:33Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
FUSION: Frequency-guided Underwater Spatial Image recOnstructioN [0.0]
水中画像は、色歪み、可視性低下、波長依存性の減衰と散乱による構造的詳細の喪失など、深刻な劣化に悩まされている。既存の拡張手法は主に空間領域処理に重点を置いており、グローバルな色分布と長距離依存を捉える周波数領域の可能性を無視している。本稿では,空間領域情報と周波数領域情報を併用した2領域深層学習フレームワーク「フュージョン」を提案する。
論文参考訳（メタデータ） (2025-04-01T23:16:19Z)
FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.06080108012735]
FiffDepth という,効率的な単眼深度推定手法を提案する。 FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。 We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文参考訳（メタデータ） (2024-12-01T04:59:34Z)
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文参考訳（メタデータ） (2024-11-27T17:51:44Z)
OSMamba: Omnidirectional Spectral Mamba with Dual-Domain Prior Generator for Exposure Correction [15.884868711123993]
我々は新しい露光補正ネットワークであるOmnidirectional Spectral Mamba (OSMamba)を提案する。 OSMambaは、Mambaを周波数領域に適応させる全方位スペクトル走査機構を導入している。我々は、よく露出した画像から学習し、劣化のない拡散前生成を行うデュアルドメイン先行生成器を開発した。
論文参考訳（メタデータ） (2024-11-22T08:54:16Z)
Self-supervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [16.673178271652553]
自己監督型単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。我々は,自己教師付き単眼深度推定のための独特の認知学習プロセスを備えた生成的拡散モデルを用いる。我々は,KITTIとMake3Dデータセットの実験を行った。
論文参考訳（メタデータ） (2024-06-14T07:31:20Z)
Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文参考訳（メタデータ） (2024-04-15T14:29:47Z)
Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation [0.0]
本稿では,学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。 ADDVは異なるRGB画像の深さ分布を動的に感知し、適応的なビンを生成することができる。また、自己監督型条件下での正規化を実現するために、新しいトレーニング戦略(統一化と強化)も導入する。
論文参考訳（メタデータ） (2024-04-04T04:22:25Z)
Generating Content for HDR Deghosting from Frequency View [56.103761824603644]
近年の拡散モデル (DM) はHDRイメージング分野に導入されている。 DMは画像全体を推定するために大きなモデルで広範囲の反復を必要とする。ゴーストフリーHDRイメージングのための低周波数対応拡散(LF-Diff)モデルを提案する。
論文参考訳（メタデータ） (2024-04-01T01:32:11Z)
LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文参考訳（メタデータ） (2023-12-02T04:31:51Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
Spatial Attention-based Distribution Integration Network for Human Pose Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文参考訳（メタデータ） (2023-11-09T12:43:01Z)
Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文参考訳（メタデータ） (2023-08-28T08:47:06Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation [23.22005119986485]
DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
論文参考訳（メタデータ） (2023-03-09T03:48:24Z)
Frequency-Aware Self-Supervised Monocular Depth Estimation [41.97188738587212]
自己教師付き単眼深度推定モデルを改善するための2つの多目的手法を提案する。本手法の高一般化性は,測光損失関数の基本的およびユビキタスな問題を解くことによって達成される。我々は、解釈可能な解析で深度推定器を改善するために、初めてぼやけた画像を提案する。
論文参考訳（メタデータ） (2022-10-11T14:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。