論文の概要: RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes
- arxiv url: http://arxiv.org/abs/2602.09532v1
- Date: Tue, 10 Feb 2026 08:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.455952
- Title: RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes
- Title(参考訳): RAD:未表現クラスに対する検索拡張単眼深度推定
- Authors: Michael Baltaxe, Dan Levi, Sagie Benaim,
- Abstract要約: 探索された近傍を構造的幾何学的プロキシとして利用することにより,多視点ステレオの利点を近似した検索拡張フレームワークを提案する。
提案手法はまず不確実性を考慮した検索機構を用いて,RGB-Dコンテキストサンプルの入力と検索の低信頼領域を同定する。
次に、入力コンテキストと検索コンテキストの両方をデュアルストリームネットワークで処理し、マッチしたクロスアテンションモジュールを使用してそれらを融合する。
- 参考スコア(独自算出の注目度): 10.229968126875471
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular Metric Depth Estimation (MMDE) is essential for physically intelligent systems, yet accurate depth estimation for underrepresented classes in complex scenes remains a persistent challenge. To address this, we propose RAD, a retrieval-augmented framework that approximates the benefits of multi-view stereo by utilizing retrieved neighbors as structural geometric proxies. Our method first employs an uncertainty-aware retrieval mechanism to identify low-confidence regions in the input and retrieve RGB-D context samples containing semantically similar content. We then process both the input and retrieved context via a dual-stream network and fuse them using a matched cross-attention module, which transfers geometric information only at reliable point correspondences. Evaluations on NYU Depth v2, KITTI, and Cityscapes demonstrate that RAD significantly outperforms state-of-the-art baselines on underrepresented classes, reducing relative absolute error by 29.2% on NYU Depth v2, 13.3% on KITTI, and 7.2% on Cityscapes, while maintaining competitive performance on standard in-domain benchmarks.
- Abstract(参考訳): 単分子距離推定(MMDE)は、物理的にインテリジェントなシステムには不可欠であるが、複雑なシーンにおける未表現のクラスに対する正確な深さ推定は永続的な課題である。
そこで本稿では,探索された近傍を構造的幾何学的プロキシとして利用することにより,多視点ステレオの利点を近似した検索拡張フレームワークRADを提案する。
提案手法はまず不確実性を考慮した検索機構を用いて,入力中の低信頼領域を同定し,意味論的に類似した内容を含むRGB-Dコンテキストサンプルを検索する。
次に、入力と検索の両方のコンテキストを二重ストリームネットワークで処理し、整合したクロスアテンションモジュールを用いて融合し、信頼性のある点対応でのみ幾何学情報を転送する。
NYU Depth v2、KITTI、Cityscapesの評価では、RADは未表現のクラスで最先端のベースラインを著しく上回り、NYU Depth v2では29.2%、KITTIでは13.3%、Cityscapesでは7.2%、標準のドメイン内ベンチマークでは競争性能を維持している。
関連論文リスト
- 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Self-Supervised Monocular Depth Estimation with Internal Feature Fusion [12.874712571149725]
深度推定のための自己教師付き学習は、画像列の幾何学を用いて監督する。
そこで本研究では,ダウンおよびアップサンプリングの手順で意味情報を利用することのできる,新しい深度推定ネットワークDIFFNetを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:31:11Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。