論文の概要: PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2501.01121v1
- Date: Thu, 02 Jan 2025 07:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:47.902437
- Title: PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation
- Title(参考訳): PatchRefiner V2:高速かつ軽量な実領域高分解能メートル法深さ推定
- Authors: Zhenyu Li, Wenqing Cui, Shariq Farooq Bhat, Peter Wonka,
- Abstract要約: PRV2はUnrealStereo4Kの精度と速度の両方で最先端の深さ推定手法より優れている。
また、CityScape、ScanNet++、KITTIといった現実世界のデータセットでは、奥行き境界線が改善されている。
- 参考スコア(独自算出の注目度): 38.71875790942604
- License:
- Abstract: While current high-resolution depth estimation methods achieve strong results, they often suffer from computational inefficiencies due to reliance on heavyweight models and multiple inference steps, increasing inference time. To address this, we introduce PatchRefiner V2 (PRV2), which replaces heavy refiner models with lightweight encoders. This reduces model size and inference time but introduces noisy features. To overcome this, we propose a Coarse-to-Fine (C2F) module with a Guided Denoising Unit for refining and denoising the refiner features and a Noisy Pretraining strategy to pretrain the refiner branch to fully exploit the potential of the lightweight refiner branch. Additionally, we introduce a Scale-and-Shift Invariant Gradient Matching (SSIGM) loss to enhance synthetic-to-real domain transfer. PRV2 outperforms state-of-the-art depth estimation methods on UnrealStereo4K in both accuracy and speed, using fewer parameters and faster inference. It also shows improved depth boundary delineation on real-world datasets like CityScape, ScanNet++, and KITTI, demonstrating its versatility across domains.
- Abstract(参考訳): 現在の高分解能深度推定法は強い結果を得るが、重み付けモデルと複数の推論ステップに依存して計算の非効率さに悩まされ、推論時間が増加する。
そこで本研究では,高精細化モデルに軽量エンコーダを置き換えたPatchRefiner V2(PRV2)を提案する。
これにより、モデルのサイズと推論時間が短縮されるが、ノイズの多い機能が導入される。
そこで本研究では, 改良部を改良・復調するためのガイドデノナイジングユニットを備えたC2Fモジュールと, 軽量精製部の可能性を完全に活用するために, 改良部を事前訓練するためのノイズ事前学習戦略を提案する。
さらに、SSIGM(Scale-and-Shift Invariant Gradient Matching)の損失を導入し、合成から現実へのドメイン転送を強化した。
PRV2はUnrealStereo4Kの精度と速度の両方で、パラメータが少なく、推論が高速である。
また、CityScape、ScanNet++、KITTIといった現実世界のデータセットで、奥行き境界のデラインを改善し、ドメイン間の汎用性を示している。
関連論文リスト
- Learning Inverse Laplacian Pyramid for Progressive Depth Completion [18.977393635158048]
LP-Netは、ラプラシアンピラミッド分解に基づくマルチスケールでプログレッシブな予測パラダイムを実装する革新的なフレームワークである。
提出時点では、LP-Netは公式のKITTIリーダーボードで全ての査読された方法の中で第1位である。
論文 参考訳(メタデータ) (2025-02-11T06:21:42Z) - DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-05T15:18:32Z) - DiffFNO: Diffusion Fourier Neural Operator [8.895165270489167]
重み付きフーリエニューラル演算子(WFNO)により強化された任意のスケール超解像のための新しい拡散フレームワークDiffFNOを紹介する。
DiffFNOは、PSNRの2~4dBのマージンで、様々なスケーリング要因にまたがる既存の手法よりも優れた、最先端のSOTA(State-of-the-art)結果が得られることを示す。
提案手法は,高精度かつ計算効率の両面において,超解像の新たな標準を定めている。
論文 参考訳(メタデータ) (2024-11-15T03:14:11Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Accelerated replica exchange stochastic gradient Langevin diffusion
enhanced Bayesian DeepONet for solving noisy parametric PDEs [7.337247167823921]
本稿では,DeepONetsのニューラルネットワークアーキテクチャを利用したレプリカ交換型Langevin拡散のトレーニングフレームワークを提案する。
提案するフレームワークの探索と活用機能により,ノイズの多いシナリオにおけるDeepONetsのトレーニング収束性の向上が期待できることを示す。
また,レプリカ交換型Langeving Diffusionにより,雑音のシナリオにおけるDeepONetの平均予測精度も向上することを示す。
論文 参考訳(メタデータ) (2021-11-03T19:23:59Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Channel Attention based Iterative Residual Learning for Depth Map
Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。
我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。
4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-02T09:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。