論文の概要: PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency
- arxiv url: http://arxiv.org/abs/2507.07374v1
- Date: Thu, 10 Jul 2025 01:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.248923
- Title: PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency
- Title(参考訳): PacGDC: 射影曖昧性と一貫性を備えたラベル効率の良い一般化可能な深さ補完
- Authors: Haotian Wang, Aoran Xiao, Xiaoqin Zhang, Meng Yang, Shijian Lu,
- Abstract要約: PacGDCは、一般化可能な深度補完のための最小限のアノテーションでデータ多様性を向上させるラベル効率のよい手法である。
本稿では,複数の深度基礎モデルをスケールマニピュレータとして利用する新しいデータ合成パイプラインを提案する。
実験により、PacGDCは複数のベンチマークで顕著に一般化可能であることが示された。
- 参考スコア(独自算出の注目度): 63.74016242995453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable depth completion enables the acquisition of dense metric depth maps for unseen environments, offering robust perception capabilities for various downstream tasks. However, training such models typically requires large-scale datasets with metric depth labels, which are often labor-intensive to collect. This paper presents PacGDC, a label-efficient technique that enhances data diversity with minimal annotation effort for generalizable depth completion. PacGDC builds on novel insights into inherent ambiguities and consistencies in object shapes and positions during 2D-to-3D projection, allowing the synthesis of numerous pseudo geometries for the same visual scene. This process greatly broadens available geometries by manipulating scene scales of the corresponding depth maps. To leverage this property, we propose a new data synthesis pipeline that uses multiple depth foundation models as scale manipulators. These models robustly provide pseudo depth labels with varied scene scales, affecting both local objects and global layouts, while ensuring projection consistency that supports generalization. To further diversify geometries, we incorporate interpolation and relocation strategies, as well as unlabeled images, extending the data coverage beyond the individual use of foundation models. Extensive experiments show that PacGDC achieves remarkable generalizability across multiple benchmarks, excelling in diverse scene semantics/scales and depth sparsity/patterns under both zero-shot and few-shot settings. Code: https://github.com/Wang-xjtu/PacGDC.
- Abstract(参考訳): 一般化可能な深度完備化により、目に見えない環境に対する密度の高いメートル法深度マップの取得が可能になり、下流の様々なタスクに対して堅牢な認識能力を提供する。
しかし、そのようなモデルのトレーニングは通常、メートル法深度ラベルを持つ大規模なデータセットを必要とする。
本稿では,最小限のアノテーションでデータ多様性を向上させるラベル効率向上手法である PacGDC を提案する。
PacGDCは、2D-to-3Dプロジェクション中の物体の形状と位置に関する新しい知見に基づいており、同じ視覚シーンに対して多数の擬似ジオメトリを合成することができる。
このプロセスは、対応する深度マップのシーンスケールを操作することで、利用可能なジオメトリを大幅に拡張する。
この特性を活用するために,複数の深度基礎モデルをスケールマニピュレータとして利用する新しいデータ合成パイプラインを提案する。
これらのモデルは、ローカルオブジェクトとグローバルレイアウトの両方に影響し、一般化をサポートするプロジェクション一貫性を確保しながら、様々なシーンスケールの擬似深度ラベルを堅牢に提供する。
さらにジオメトリを多様化するために、補間・転位戦略やラベルなし画像を導入し、基礎モデルの個別利用を超えてデータカバレッジを拡大する。
大規模な実験により、PacGDCは複数のベンチマークで顕著な一般化を実現し、シーンのセマンティクス/スケールや、ゼロショットと少数ショットの両方の条件下での深度空間/パターンに優れていた。
コード:https://github.com/Wang-xjtu/PacGDC
関連論文リスト
- Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Towards Domain-agnostic Depth Completion [28.25756709062647]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域をまたいだ一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - Depth Completion using Geometry-Aware Embedding [22.333381291860498]
本稿では,幾何認識の埋め込みを効率的に学習する手法を提案する。
局所的および大域的な幾何学的構造情報を、例えば、シーンレイアウト、オブジェクトのサイズと形状などの3Dポイントから符号化し、深度推定を導く。
論文 参考訳(メタデータ) (2022-03-21T12:06:27Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。