論文の概要: Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2505.21231v2
- Date: Thu, 31 Jul 2025 21:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.52835
- Title: Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
- Title(参考訳): 咬合境界と深さ:マルチタスク学習による相互強化
- Authors: Lintao Xu, Yinghao Wang, Chaohui Wang,
- Abstract要約: 単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
- 参考スコア(独自算出の注目度): 3.4174356345935393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion Boundary Estimation (OBE) identifies boundaries arising from both inter-object occlusions and self-occlusion within individual objects, distinguishing them from ordinary edges and semantic contours to support more accurate scene understanding. This task is closely related to Monocular Depth Estimation (MDE), which infers depth from a single image, as Occlusion Boundaries (OBs) provide critical geometric cues for resolving depth ambiguities, while depth can conversely refine occlusion reasoning. In this paper, we propose MoDOT, a novel method that jointly estimates depth and OBs from a single image for the first time. MoDOT incorporates a new module, CASM, which combines cross-attention and multi-scale strip convolutions to leverage mid-level OB features for improved depth prediction. It also includes an occlusion-aware loss, OBDCL, which encourages more accurate boundaries in the predicted depth map. Extensive experiments demonstrate the mutual benefits of jointly estimating depth and OBs, and validate the effectiveness of MoDOT's design. Our method achieves state-of-the-art (SOTA) performance on two synthetic datasets and the widely used NYUD-v2 real-world dataset, significantly outperforming multi-task baselines. Furthermore, the cross-domain results of MoDOT on real-world depth prediction - trained solely on our synthetic dataset - yield promising results, preserving sharp OBs in the predicted depth maps and demonstrating improved geometric fidelity compared to competitors. We will release our code, pre-trained models, and dataset at [link].
- Abstract(参考訳): Occlusion boundary Estimation (OBE)は、オブジェクト間の閉塞と個々のオブジェクト内の自己閉塞の両方から生じる境界を識別し、より正確なシーン理解を支援するために、通常のエッジやセマンティックな輪郭と区別する。
このタスクは、単一画像から深度を推定する単眼深度推定(MDE)と密接に関連している。
本稿では,単一の画像から深度とOBを同時推定する手法であるMoDOTを提案する。
MoDOTは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせた新しいモジュールCASMを組み込んで、中レベルのOB機能を活用して深度予測を改善する。
また、Occlusion-aware Los(OBDCL)が含まれており、予測深度マップのより正確な境界を推奨している。
広汎な実験は、深度とOBを共同で推定することの相互利益を示し、MoDOTの設計の有効性を検証した。
提案手法は,2つの合成データセットと広く使用されているNYUD-v2実世界のデータセット上でのSOTA(State-of-the-art)性能を実現し,マルチタスクベースラインを著しく上回っている。
さらに、実世界の深度予測(我々の合成データセットのみに基づく訓練)におけるMoDOTのクロスドメインの結果は、予測された深度マップに鋭いOBを保存し、競合他社と比較して幾何的忠実度が向上したことを示す、有望な結果をもたらす。
コード、事前トレーニングされたモデル、データセットを[link]でリリースします。
関連論文リスト
- Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion [33.854696587141355]
本研究では,大規模トレーニングを伴わずに,深度基礎モデルを利用して顕著な堅牢性を実現する新しい深度補修フレームワークを提案する。
具体的には、深度基盤モデルを用いて、RGB画像から構造的・意味的文脈を含む環境条件を抽出し、疎度情報の欠落領域への伝播を誘導する。
我々のフレームワークはOODシナリオにおいて非常によく機能し、既存の最先端の深度補完手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-07T02:38:24Z) - Tree-Mamba: A Tree-Aware Mamba for Underwater Monocular Depth Estimation [85.17735565146106]
水中単眼深度推定(UMDE)は水中劣化画像から高精度深度マップを推定することを目的とした重要な課題である。
我々は,水中の劣化画像から正確な単分子深度マップを推定するための,木を意識した新しいマンバ手法であるTree-Mambaを開発した。
海底深度推定ベンチマーク (BlueDepth) を構築し, 深度ラベルが信頼できる海底画像ペア38,162枚を構築した。
論文 参考訳(メタデータ) (2025-07-10T12:10:51Z) - Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - Detail-aware multi-view stereo network for depth estimation [4.8203572077041335]
粗大なフレームワークを用いた細部対応多視点ステレオネットワーク(DA-MVSNet)を提案する。
粗い段階で隠された幾何学的深さの手がかりを用いて、幾何学的構造関係を維持する。
DTU と Tanks & Temples のデータセットを用いた実験により,本手法が競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-03-31T03:23:39Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - Bilateral Propagation Network for Depth Completion [41.163328523175466]
深度補正は,色画像の同期による疎深度測定から高密度深度マップを導出することを目的としている。
現在の最先端技術(SOTA)法は主に伝播に基づく手法であり、初期推定密度深さの反復精製として機能する。
本稿では, スパースデータの直接結合を避けるために, 早期に深度を伝播するバイラテラル伝搬ネットワーク(BP-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-17T16:48:46Z) - GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a
Gradient-Aware Mask and Semantic Constraints [12.426365333096264]
本稿では,勾配認識マスクと意味制約という,2つの新しいコンポーネントをベースとしたGAM-Depthを提案する。
グラデーション対応マスクは、キー領域とテクスチャレス領域の両方の適応的かつ堅牢な監視を可能にする。
室内における自己監督深度推定のセマンティック制約の導入は、物体の境界における深度差を改善する。
論文 参考訳(メタデータ) (2024-02-22T07:53:34Z) - Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation [42.19770683222846]
単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。
本稿では,密集した合成データから深度エッジの位置を検出することを提案する。
いくつかの挑戦的データセットに対して,画素ごとの深度精度を比較検討することにより,深度エッジの精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2022-12-10T14:49:24Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。