論文の概要: No Pose Estimation? No Problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2511.05055v1
- Date: Fri, 07 Nov 2025 07:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.7082
- Title: No Pose Estimation? No Problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation
- Title(参考訳): No Pose Estimation? No problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation
- Authors: Mingyu Sung, Hyeonmin Choe, Il-Min Kim, Sangseok Yun, Jae Mo Kang,
- Abstract要約: テスト時間(ドメイン)適応(TTA)は、この問題に対処するための説得力があり実践的なアプローチの1つです。
我々は,MDE のための新しい高性能な TTA フレームワーク PITTA を提案する。
提案手法には,MDEのためのポーズに依存しないTTAパラダイムと,インスタンス認識型画像マスキングの2つの革新的戦略が組み込まれている。
- 参考スコア(独自算出の注目度): 7.436063412302697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation (MDE), inferring pixel-level depths in single RGB images from a monocular camera, plays a crucial and pivotal role in a variety of AI applications demanding a three-dimensional (3D) topographical scene. In the real-world scenarios, MDE models often need to be deployed in environments with different conditions from those for training. Test-time (domain) adaptation (TTA) is one of the compelling and practical approaches to address the issue. Although there have been notable advancements in TTA for MDE, particularly in a self-supervised manner, existing methods are still ineffective and problematic when applied to diverse and dynamic environments. To break through this challenge, we propose a novel and high-performing TTA framework for MDE, named PITTA. Our approach incorporates two key innovative strategies: (i) pose-agnostic TTA paradigm for MDE and (ii) instance-aware image masking. Specifically, PITTA enables highly effective TTA on a pretrained MDE network in a pose-agnostic manner without resorting to any camera pose information. Besides, our instance-aware masking strategy extracts instance-wise masks for dynamic objects (e.g., vehicles, pedestrians, etc.) from a segmentation mask produced by a pretrained panoptic segmentation network, by removing static objects including background components. To further boost performance, we also present a simple yet effective edge extraction methodology for the input image (i.e., a single monocular image) and depth map. Extensive experimental evaluations on DrivingStereo and Waymo datasets with varying environmental conditions demonstrate that our proposed framework, PITTA, surpasses the existing state-of-the-art techniques with remarkable performance improvements in MDE during TTA.
- Abstract(参考訳): 単眼深度推定(MDE)は、単眼カメラから1枚のRGB画像からピクセルレベルの深度を推定する手法であり、三次元3次元地形画像を必要とする様々なAIアプリケーションにおいて決定的かつ重要な役割を担っている。
現実のシナリオでは、MDEモデルはトレーニング用と異なる条件で環境にデプロイする必要があることが多い。
テスト時間(ドメイン)適応(TTA)は、この問題に対処するための説得力があり実践的なアプローチの1つです。
MDEのTTAには、特に自己管理的な方法で顕著な進歩があったが、多様な動的環境に適用した場合、既存の手法は依然として効果がなく問題が多い。
この課題を打開するために,PITTA という名称の MDE のための新規かつ高性能な TTA フレームワークを提案する。
私たちのアプローチには2つの重要な革新的な戦略が組み込まれています。
i) MDE および MDE のためのポーズに依存しない TTA パラダイム
(ii)インスタンス対応画像マスキング。
具体的には、PITTAは、カメラのポーズ情報に頼ることなく、事前訓練されたMDEネットワーク上で、ポーズ非依存で高効率なTTAを可能にする。
さらに,当社のインスタンス対応マスキング戦略では,背景成分を含む静的なオブジェクトを除去することにより,事前訓練された汎視的セグメンテーションネットワークによって生成されたセグメンテーションマスクから動的オブジェクト(車両,歩行者など)のインスタンスワイズマスクを抽出する。
さらに性能を向上させるため,入力画像(単一の単分子画像)と深度マップに対して,単純かつ効果的なエッジ抽出手法を提案する。
ドライビングステーオとWaymoの環境条件の異なるデータセットに対する大規模な実験的評価は、提案するフレームワークであるPITTAが既存の最先端技術を超え、TTAにおけるMDEの性能が著しく向上していることを示している。
関連論文リスト
- EfficientDepth: A Fast and Detail-Preserving Monocular Depth Estimation Model [1.4525559282354221]
我々は、トランスフォーマーアーキテクチャと軽量畳み込みデコーダを組み合わせた、EfficientDepthと呼ばれる新しいMDEシステムを導入する。
我々は,ハイパフォーマンスなMDE法を用いて,ラベル付き合成画像と実画像と,擬似ラベル付き実画像の組み合わせでモデルを訓練する。
一般的に使用される目的に加えて,LPIPSに基づく損失関数を導入し,ネットワークが詳細な深度マップを作成することを奨励する。
論文 参考訳(メタデータ) (2025-09-26T16:05:43Z) - UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。