論文の概要: Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2510.09320v1
- Date: Fri, 10 Oct 2025 12:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.898256
- Title: Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
- Title(参考訳): 自己教師型単眼深度推定のための粗粒度言語誘導によるハイブリッド粒度特徴集合
- Authors: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin,
- Abstract要約: 現在の自己教師型単眼深度推定手法は, 意味空間知識の抽出が不十分なため, 性能限界に遭遇する。
基礎モデル(例えばCLIPやDINO)を体系的に統合し、視覚的先行情報を抽出し、MDEに十分な文脈情報を取得する新しいフレームワークであるHybrid-depthを提案する。
- 参考スコア(独自算出の注目度): 26.067792743687775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current self-supervised monocular depth estimation (MDE) approaches encounter performance limitations due to insufficient semantic-spatial knowledge extraction. To address this challenge, we propose Hybrid-depth, a novel framework that systematically integrates foundation models (e.g., CLIP and DINO) to extract visual priors and acquire sufficient contextual information for MDE. Our approach introduces a coarse-to-fine progressive learning framework: 1) Firstly, we aggregate multi-grained features from CLIP (global semantics) and DINO (local spatial details) under contrastive language guidance. A proxy task comparing close-distant image patches is designed to enforce depth-aware feature alignment using text prompts; 2) Next, building on the coarse features, we integrate camera pose information and pixel-wise language alignment to refine depth predictions. This module seamlessly integrates with existing self-supervised MDE pipelines (e.g., Monodepth2, ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth estimation. By aggregating CLIP's semantic context and DINO's spatial details through language guidance, our method effectively addresses feature granularity mismatches. Extensive experiments on the KITTI benchmark demonstrate that our method significantly outperforms SOTA methods across all metrics, which also indeed benefits downstream tasks like BEV perception. Code is available at https://github.com/Zhangwenyao1/Hybrid-depth.
- Abstract(参考訳): 現在の自己教師付き単眼深度推定(MDE)は、意味空間知識の抽出が不十分なため、性能制限に直面する。
この課題に対処するために,基盤モデル(例えば,CLIP,DINO)を体系的に統合し,視覚的先行情報を抽出し,MDEに十分なコンテキスト情報を取得する新しいフレームワークであるHybrid-depthを提案する。
私たちのアプローチでは、粗大から細粒の進歩的学習フレームワークを導入しています。
1)まず,CLIP (global semantics) とDINO (local space details) の多粒度特徴を,コントラスト言語指導の下で集約する。
テキストプロンプトを用いた奥行き認識機能アライメントを強制するために、近距離画像パッチの比較を行うプロキシタスクが設計されている。
次に、粗い特徴に基づいて、カメラポーズ情報と画素ワイド言語アライメントを統合し、深度予測を洗練させる。
このモジュールは、プラグイン・アンド・プレイ深度エンコーダとして、既存の自己管理型MDEパイプライン(例:Monodepth2, ManyDepth)とシームレスに統合され、継続的な深度推定が向上する。
CLIPのセマンティックコンテキストとDINOの空間的詳細を言語指導によって集約することにより,提案手法は特徴的粒度ミスマッチに効果的に対処する。
KITTIベンチマークの大規模な実験により、我々の手法は全ての指標でSOTA法を著しく上回り、BEV知覚のような下流タスクにも有効であることが示された。
コードはhttps://github.com/Zhangwenyao1/Hybrid-depth.comで公開されている。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - SemSegDepth: A Combined Model for Semantic Segmentation and Depth
Completion [18.19171031755595]
セマンティックセグメンテーションと深度補完を共同で行うための新しいエンド・ツー・エンドモデルを提案する。
提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップとそれに対応するセマンティックセグメンテーション画像を生成する。
Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方のタスクをマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなるエビデンスを実証し、提供する。
論文 参考訳(メタデータ) (2022-09-01T11:52:11Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - Semantic-Guided Representation Enhancement for Self-supervised Monocular
Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。
しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。
局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。