論文の概要: Adaptive Depth-converted-Scale Convolution for Self-supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2604.07665v1
- Date: Thu, 09 Apr 2026 00:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.60783
- Title: Adaptive Depth-converted-Scale Convolution for Self-supervised Monocular Depth Estimation
- Title(参考訳): 自己教師型単眼深度推定のための適応深さ変換スケール畳み込み
- Authors: Yanbo Gao, Huibin Bai, Huasong Zhou, Xingyu Gao, Shuai Li, Xun Cai, Hui Yuan, Wei Hua, Tian Xie,
- Abstract要約: 本稿では,DcSConv(Depth-converted-Scale Convolution)を改良した単眼深度推定フレームワークを提案する。
提案したDcSConvは、形状の局所的な変形ではなく、畳み込みフィルタの適応スケールに焦点を当てている。
Depth-converted-Scale aware Fusion (DcS-F) はDcSConv機能と従来の畳み込み機能とを適応的に融合させる。
- 参考スコア(独自算出の注目度): 23.909506883639466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised monocular depth estimation (MDE) has received increasing interests in the last few years. The objects in the scene, including the object size and relationship among different objects, are the main clues to extract the scene structure. However, previous works lack the explicit handling of the changing sizes of the object due to the change of its depth. Especially in a monocular video, the size of the same object is continuously changed, resulting in size and depth ambiguity. To address this problem, we propose a Depth-converted-Scale Convolution (DcSConv) enhanced monocular depth estimation framework, by incorporating the prior relationship between the object depth and object scale to extract features from appropriate scales of the convolution receptive field. The proposed DcSConv focuses on the adaptive scale of the convolution filter instead of the local deformation of its shape. It establishes that the scale of the convolution filter matters no less (or even more in the evaluated task) than its local deformation. Moreover, a Depth-converted-Scale aware Fusion (DcS-F) is developed to adaptively fuse the DcSConv features and the conventional convolution features. Our DcSConv enhanced monocular depth estimation framework can be applied on top of existing CNN based methods as a plug-and-play module to enhance the conventional convolution block. Extensive experiments with different baselines have been conducted on the KITTI benchmark and our method achieves the best results with an improvement up to 11.6% in terms of SqRel reduction. Ablation study also validates the effectiveness of each proposed module.
- Abstract(参考訳): 自己監督型単分子深度推定(MDE)はここ数年,関心が高まっている。
シーン内のオブジェクトは、オブジェクトのサイズや異なるオブジェクト間の関係を含むもので、シーン構造を抽出するための主要な手がかりである。
しかし、以前の研究では、その深さの変化によってオブジェクトのサイズが変化するという明示的な扱いが欠けていた。
特にモノクロビデオでは、同じ物体のサイズが連続的に変化し、サイズと深さのあいまいさが生じる。
この問題に対処するために,物体深度と物体スケールの関係を組み込んだDcSConv(Depth-converted-Scale Convolution)拡張単眼深度推定フレームワークを提案する。
提案したDcSConvは、形状の局所的な変形ではなく、畳み込みフィルタの適応スケールに焦点を当てている。
畳み込みフィルタのスケールが局所的な変形よりも小さい(あるいは、評価されたタスクでさらに大きい)ことを証明している。
さらに、DcSConv機能と従来の畳み込み機能とを適応的に融合させるために、DcS-F(Depth-converted-Scale aware Fusion)を開発した。
我々のDcSConv拡張単分子深度推定フレームワークは、従来の畳み込みブロックを強化するためのプラグイン・アンド・プレイモジュールとして、既存のCNNベースのメソッドの上に適用することができる。
KITTIのベンチマークでは,異なるベースラインによる大規模な実験が実施されており,SqRelの削減率を最大11.6%向上した結果が得られた。
アブレーション研究は、提案された各モジュールの有効性も検証する。
関連論文リスト
- Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。