論文の概要: Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders
- arxiv url: http://arxiv.org/abs/2503.19947v1
- Date: Tue, 25 Mar 2025 15:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:02.180088
- Title: Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders
- Title(参考訳): Vanishing Depth: 一般化画像エンコーダのための位置深さエンコーダ
- Authors: Paul Koch, Jörg Krüger, Ankit Chowdhury, Oliver Heimann,
- Abstract要約: 一般的なメートル法深度理解は、正確な視覚誘導ロボット工学にとって重要である。
本稿では,事前学習したRGBエンコーダを拡張した自己教師型トレーニング手法であるVanishing Depthを提案する。
我々は、RGBDダウンストリームタスクのスペクトルにわたる性能改善とSOTA結果を達成する。
- 参考スコア(独自算出の注目度): 0.24999074238880484
- License:
- Abstract: Generalized metric depth understanding is critical for precise vision-guided robotics, which current state-of-the-art (SOTA) vision-encoders do not support. To address this, we propose Vanishing Depth, a self-supervised training approach that extends pretrained RGB encoders to incorporate and align metric depth into their feature embeddings. Based on our novel positional depth encoding, we enable stable depth density and depth distribution invariant feature extraction. We achieve performance improvements and SOTA results across a spectrum of relevant RGBD downstream tasks - without the necessity of finetuning the encoder. Most notably, we achieve 56.05 mIoU on SUN-RGBD segmentation, 88.3 RMSE on Void's depth completion, and 83.8 Top 1 accuracy on NYUv2 scene classification. In 6D-object pose estimation, we outperform our predecessors of DinoV2, EVA-02, and Omnivore and achieve SOTA results for non-finetuned encoders in several related RGBD downstream tasks.
- Abstract(参考訳): 一般的なメートル法深度理解は、現在の最先端(SOTA)ビジョンエンコーダがサポートしていない正確な視覚誘導ロボティクスにとって重要である。
そこで本稿では,事前学習したRGBエンコーダを拡張した自己教師型トレーニング手法であるVanishing Depthを提案する。
新たな位置深度符号化法により,安定な深度密度と深度分布不変の特徴抽出が可能となる。
我々は,エンコーダの微調整を必要とせずに,RGBDダウンストリームタスクのスペクトルにわたる性能改善とSOTA結果を実現する。
特に、SUN-RGBDセグメンテーションで56.05 mIoU、Voidの深さ完了で88.3 RMSE、NYUv2シーン分類で83.8 の精度を達成した。
6Dオブジェクトのポーズ推定では、DinoV2, EVA-02, Omnivoreの前任者より優れており、複数のRGBD下流タスクにおいて非微細エンコーダのSOTA結果が得られる。
関連論文リスト
- Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文 参考訳(メタデータ) (2024-09-12T15:52:08Z) - Depth Matters: Exploring Deep Interactions of RGB-D for Semantic Segmentation in Traffic Scenes [11.446541235218396]
本研究では、深度の有効性を探求するために、新しい学習可能な深度相互作用ピラミッド変換器(DiPFormer)を提案する。
DiPFormerはKITTI(KITTI道路で97.57%Fスコア、KITTI-360で68.74%mIoU)とCityscapesデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-09-12T12:39:34Z) - OGNI-DC: Robust Depth Completion with Optimization-Guided Neural Iterations [23.0962036039182]
OGNI(Optimization-Guided Neural Iterations)は深度補正のための新しいフレームワークである。
OGNI-DCは強力な一般化を示し、目に見えないデータセットのベースラインと、さまざまな空間レベルのベースラインを上回ります。
精度が高く、NYUv2とKITTIベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-17T16:30:29Z) - A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion [10.519644854849098]
室内深度補完のための2段階トランスフォーマーネットワークを提案する。
提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。
また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
論文 参考訳(メタデータ) (2024-06-14T07:42:27Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Direct Depth Learning Network for Stereo Matching [79.3665881702387]
ステレオマッチングのための新しいダイレクトディープス学習ネットワーク(DDL-Net)が設計されている。
DDL-Netは、粗度推定段階と適応勾配深度補正段階の2段階からなる。
我々は,DDL-NetがSceneFlowデータセットで25%,DrivingStereoデータセットで12%の平均的な改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-12-10T10:33:57Z) - Decoder Modulation for Indoor Depth Completion [2.099922236065961]
深さの完了は、センサ測定から密度の深い深度マップを復元する。
現在の手法は主に、屋外環境でのLiDARからの非常にスパースな深度測定のために調整されている。
本稿では,これらの地域間の統計的差異を考慮した新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-05-18T11:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。