論文の概要: Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2505.21231v1
- Date: Tue, 27 May 2025 14:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.710307
- Title: Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
- Title(参考訳): 咬合境界と深さ:マルチタスク学習による相互強化
- Authors: Lintao Xu, Yinghao Wang, Chaohui Wang,
- Abstract要約: 排他的境界推定(Occlusion boundary Estimation)は、両方のオブジェクト間から生じる境界を特定する。
個々のオブジェクト内での閉塞と自己閉塞。
本稿では,まず深度とOBを共同で推定する新しいネットワークであるMoDOTを提案する。
- 参考スコア(独自算出の注目度): 3.4174356345935393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion Boundary Estimation (OBE) identifies boundaries arising from both inter-object occlusions and self-occlusion within individual objects, distinguishing intrinsic object edges from occlusion-induced contours to improve scene understanding and 3D reconstruction capacity. This is closely related to Monocular Depth Estimation (MDE), which infers depth from a single image, as occlusion boundaries provide critical geometric cues for resolving depth ambiguities, while depth priors can conversely refine occlusion reasoning in complex scenes. In this paper, we propose a novel network, MoDOT, that first jointly estimates depth and OBs. We propose CASM, a cross-attention multi-scale strip convolution module, leverages mid-level OB features to significantly enhance depth prediction. Additionally, we introduce an occlusion-aware loss function, OBDCL, which encourages sharper and more accurate depth boundaries. Extensive experiments on both real and synthetic datasets demonstrate the mutual benefits of jointly estimating depth and OB, and highlight the effectiveness of our model design. Our method achieves the state-of-the-art (SOTA) on both our proposed synthetic datasets and one popular real dataset, NYUD-v2, significantly outperforming multi-task baselines. Besides, without domain adaptation, results on real-world depth transfer are comparable to the competitors, while preserving sharp occlusion boundaries for geometric fidelity. We will release our code, pre-trained models, and datasets to support future research in this direction.
- Abstract(参考訳): オクルージョン境界推定(Occlusion boundary Estimation, OBE)は、オブジェクト間のオクルージョンと個々のオブジェクト内の自己オクルージョンの両方から生じる境界を識別し、固有のオブジェクトエッジとオクルージョンによって引き起こされる輪郭を区別し、シーン理解と3次元再構成能力を改善する。
これは1つの画像から深度を推定する単眼深度推定(MDE)と密接に関連している。
本稿では,まず,深度とOBを共同で推定する新しいネットワークであるMoDOTを提案する。
そこで我々は,クロスアテンション型マルチスケールストリップ畳み込みモジュールCASMを提案する。
さらに,よりシャープで高精度な深度境界を実現するOcclusion-aware Los Function OBDCLを導入する。
実データと合成データの両方に対する広範囲な実験は、深度とOBを相互に推定することの利点を示し、モデル設計の有効性を強調した。
提案手法は,提案した合成データセットと1つの一般的な実データセットであるNYUD-v2を用いて,最先端のSOTA(State-of-the-art)を実現し,マルチタスクベースラインを著しく上回っている。
さらに、領域適応なしでは、実世界の深度移動の結果は、幾何学的忠実性のための鋭い閉塞境界を保ちながら、競合に匹敵する。
コード、事前訓練されたモデル、データセットを公開して、この方向への将来の研究を支援します。
関連論文リスト
- Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - Detail-aware multi-view stereo network for depth estimation [4.8203572077041335]
粗大なフレームワークを用いた細部対応多視点ステレオネットワーク(DA-MVSNet)を提案する。
粗い段階で隠された幾何学的深さの手がかりを用いて、幾何学的構造関係を維持する。
DTU と Tanks & Temples のデータセットを用いた実験により,本手法が競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-03-31T03:23:39Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a
Gradient-Aware Mask and Semantic Constraints [12.426365333096264]
本稿では,勾配認識マスクと意味制約という,2つの新しいコンポーネントをベースとしたGAM-Depthを提案する。
グラデーション対応マスクは、キー領域とテクスチャレス領域の両方の適応的かつ堅牢な監視を可能にする。
室内における自己監督深度推定のセマンティック制約の導入は、物体の境界における深度差を改善する。
論文 参考訳(メタデータ) (2024-02-22T07:53:34Z) - Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation [42.19770683222846]
単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。
本稿では,密集した合成データから深度エッジの位置を検出することを提案する。
いくつかの挑戦的データセットに対して,画素ごとの深度精度を比較検討することにより,深度エッジの精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2022-12-10T14:49:24Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。