論文の概要: Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network
- arxiv url: http://arxiv.org/abs/2308.05605v1
- Date: Thu, 10 Aug 2023 14:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:09:59.058609
- Title: Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network
- Title(参考訳): 方向対応累積畳み込みネットワークによる自己監督単眼深度推定
- Authors: Wencheng Han, Junbo Yin and Jianbing Shen
- Abstract要約: 自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 80.19054069988559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is known as an ill-posed task in which objects in
a 2D image usually do not contain sufficient information to predict their
depth. Thus, it acts differently from other tasks (e.g., classification and
segmentation) in many ways. In this paper, we find that self-supervised
monocular depth estimation shows a direction sensitivity and environmental
dependency in the feature representation. But the current backbones borrowed
from other tasks pay less attention to handling different types of
environmental information, limiting the overall depth accuracy. To bridge this
gap, we propose a new Direction-aware Cumulative Convolution Network (DaCCN),
which improves the depth feature representation in two aspects. First, we
propose a direction-aware module, which can learn to adjust the feature
extraction in each direction, facilitating the encoding of different types of
information. Secondly, we design a new cumulative convolution to improve the
efficiency for aggregating important environmental information. Experiments
show that our method achieves significant improvements on three widely used
benchmarks, KITTI, Cityscapes, and Make3D, setting a new state-of-the-art
performance on the popular benchmarks with all three types of self-supervision.
- Abstract(参考訳): 単眼深度推定は、通常2次元画像内の物体が深さを予測するのに十分な情報を持っていない不適切なタスクとして知られている。
したがって、様々な方法で他のタスク(例えば分類や分節)と異なる振る舞いをする。
本稿では,自己教師付き単眼深度推定により,特徴表現における方向感度と環境依存性を示す。
しかし、他のタスクから借りた現在のバックボーンは、異なる種類の環境情報を扱うことにはあまり注意を払わず、全体的な深さの精度を制限します。
このギャップを埋めるために,2つの側面において深度特徴表現を改善する方向対応累積畳み込みネットワーク (DaCCN) を提案する。
まず,各方向の特徴抽出を学習し,異なる種類の情報の符号化を容易にする方向認識モジュールを提案する。
次に,重要な環境情報を集約する効率を向上させるために,新しい累積畳み込みを設計する。
実験の結果,提案手法はKITTI,Cityscapes,Make3Dの3種類のベンチマークに対して大幅な改善を達成し,これら3種類のセルフスーパービジョンを持つベンチマークに対して,新たな最先端性能を実現することができた。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。