論文の概要: MT-Depth: Multi-task Instance feature analysis for the Depth Completion
- arxiv url: http://arxiv.org/abs/2512.04734v2
- Date: Tue, 09 Dec 2025 08:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:22.908887
- Title: MT-Depth: Multi-task Instance feature analysis for the Depth Completion
- Title(参考訳): MT-Depth: 深度完了のためのマルチタスク・インスタンスの特徴解析
- Authors: Abdul Haseeb Nizamani, Dandi Zhou, Xinhai Sun,
- Abstract要約: 本稿では,2値のインスタンスマスクを空間的先行として明示的に統合し,深度予測を洗練させる,インスタンス対応深度補完フレームワークを提案する。
我々のモデルは,凍結したYOLO V11インスタンスセグメンテーションブランチ,U-Netベースの深度補完バックボーン,クロスアテンション融合モジュール,アテンション誘導予測ヘッドの4つの主要コンポーネントを組み合わせている。
提案手法をVirtual KITTI 2データセット上で検証した結果,U-Netのみのベースラインと,それ以前のセマンティック誘導方式と比較して,ルート平均正方形誤差(RMSE)が低いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth completion plays a vital role in 3D perception systems, especially in scenarios where sparse depth data must be densified for tasks such as autonomous driving, robotics, and augmented reality. While many existing approaches rely on semantic segmentation to guide depth completion, they often overlook the benefits of object-level understanding. In this work, we introduce an instance-aware depth completion framework that explicitly integrates binary instance masks as spatial priors to refine depth predictions. Our model combines four main components: a frozen YOLO V11 instance segmentation branch, a U-Net-based depth completion backbone, a cross-attention fusion module, and an attention-guided prediction head. The instance segmentation branch generates per-image foreground masks that guide the depth branch via cross-attention, allowing the network to focus on object-centric regions during refinement. We validate our method on the Virtual KITTI 2 dataset, showing that it achieves lower Root Mean Squared Error (RMSE) compared to both a U-Net-only baseline and previous semantic-guided methods, while maintaining competitive Mean Absolute Error (MAE). Qualitative and quantitative results demonstrate that the proposed model effectively enhances depth accuracy near object boundaries, occlusions, and thin structures. Our findings suggest that incorporating instance-aware cues offers a promising direction for improving depth completion without relying on dense semantic labels.
- Abstract(参考訳): 特に、自律運転、ロボット工学、拡張現実といったタスクにおいて、疎密な深度データを密度化しなければならない場合において、深度完了は3D知覚システムにおいて重要な役割を果たす。
多くの既存のアプローチは、深さの完成を導くためにセマンティックセグメンテーションに依存しているが、それらはしばしばオブジェクトレベルの理解の利点を見落としている。
本研究では,2値のインスタンスマスクを空間的先行として明示的に統合し,深度予測を洗練させる,インスタンス対応深度補完フレームワークを提案する。
我々のモデルは,凍結したYOLO V11インスタンスセグメンテーションブランチ,U-Netベースの深度補完バックボーン,クロスアテンション融合モジュール,アテンション誘導予測ヘッドの4つの主要コンポーネントを組み合わせている。
インスタンスセグメンテーションブランチは、画像ごとのフォアグラウンドマスクを生成し、クロスアテンションを通じてディープブランチをガイドし、リファインメント中にネットワークがオブジェクト中心の領域に集中できるようにする。
提案手法をVirtual KITTI 2データセット上で検証した結果,U-Netのみのベースラインと従来のセマンティック誘導方式のいずれよりも低い平均二乗誤差(RMSE)を実現し,競合する平均二乗誤差(MAE)を維持した。
定性的および定量的な結果から,提案手法は物体境界, 閉塞, 細い構造近傍の深度精度を効果的に向上することを示した。
本研究は, インスタンス認識手法を取り入れることで, 密接なセマンティックラベルに頼ることなく, 深度を向上できる可能性が示唆された。
関連論文リスト
- Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - SemSegDepth: A Combined Model for Semantic Segmentation and Depth
Completion [18.19171031755595]
セマンティックセグメンテーションと深度補完を共同で行うための新しいエンド・ツー・エンドモデルを提案する。
提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップとそれに対応するセマンティックセグメンテーション画像を生成する。
Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方のタスクをマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなるエビデンスを実証し、提供する。
論文 参考訳(メタデータ) (2022-09-01T11:52:11Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。