論文の概要: WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2511.08036v1
- Date: Wed, 12 Nov 2025 01:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.60967
- Title: WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation
- Title(参考訳): WEDepth: 単眼深度推定のための世界知識の効率的な適応
- Authors: Gongshu Wang, Zhirui Wang, Kan Yang,
- Abstract要約: 大規模な多様なデータセットで事前訓練されたモダンビジョン財団モデル(VFM)は、目覚ましい世界理解能力を示している。
We propose WEDepth, a novel approach that adapts VFMs for MDE without to modi-fying their structure and pretrained weights。
提案手法では,VFMをマルチレベル特徴量として利用し,異なる表現レベルで事前知識を系統的に注入する。
- 参考スコア(独自算出の注目度): 4.654162664140336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation (MDE) has widely applicable but remains highly challenging due to the inherently ill-posed nature of reconstructing 3D scenes from single 2D images. Modern Vision Foundation Models (VFMs), pre-trained on large-scale diverse datasets, exhibit remarkable world understanding capabilities that benefit for various vision tasks. Recent studies have demonstrated significant improvements in MDE through fine-tuning these VFMs. Inspired by these developments, we propose WEDepth, a novel approach that adapts VFMs for MDE without modi-fying their structures and pretrained weights, while effec-tively eliciting and leveraging their inherent priors. Our method employs the VFM as a multi-level feature en-hancer, systematically injecting prior knowledge at differ-ent representation levels. Experiments on NYU-Depth v2 and KITTI datasets show that WEDepth establishes new state-of-the-art (SOTA) performance, achieving competi-tive results compared to both diffusion-based approaches (which require multiple forward passes) and methods pre-trained on relative depth. Furthermore, we demonstrate our method exhibits strong zero-shot transfer capability across diverse scenarios.
- Abstract(参考訳): 単眼深度推定(MDE)は広く適用されているが、単一の2次元画像から3Dシーンを再構成するという本質的に不適切な性質のため、非常に困難である。
大規模な多様なデータセットで事前訓練されたモダンビジョン財団モデル(VFM)は、様々なビジョンタスクに有用な優れた世界理解能力を示す。
近年の研究では、これらのVFMの微調整によるMDEの大幅な改善が示されている。
これらの発展にインスパイアされたWEDepthは、VFMをMDEに適応させる新しいアプローチであり、その構造や事前訓練の重み付けは行わず、エフェック的かつ厳密な先入観の獲得と活用を図っている。
提案手法では,VFMをマルチレベル特徴量として利用し,異なる表現レベルで事前知識を系統的に注入する。
NYU-Depth v2とKITTIデータセットの実験は、WEDepthが新しい最先端(SOTA)パフォーマンスを確立し、拡散に基づくアプローチ(複数の前方通過を必要とする)と相対深度で事前訓練された手法の両方と比較して、相反する結果が得られることを示している。
さらに,本手法は多様なシナリオにまたがる強力なゼロショット転送能力を示す。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Stronger, Steadier & Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation [11.220592454534746]
Vision Foundation Models (VFMs) はDomain Generalized Semantic (DGSS) において素晴らしい成果を上げている。
近年の手法は、視覚的手がかりが受容可能であるという事実を無視することが多いが、基礎となる幾何学は安定であり、深度情報はより堅牢である。
本稿では,凍結したDINOv2 や EVA02 の視覚的手がかりと凍結したDepth Anything V2 の深度的手がかりを統合する,DepthForge という新しい微調整 DGSS フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:45:33Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。