論文の概要: Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation
- arxiv url: http://arxiv.org/abs/2407.04041v2
- Date: Sun, 01 Dec 2024 15:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:51.842236
- Title: Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation
- Title(参考訳): クロスビュー型自己監督型周辺深度推定に向けて
- Authors: Laiyan Ding, Hualie Jiang, Jie Li, Yongquan Chen, Rui Huang,
- Abstract要約: 連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。
従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。
本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
- 参考スコア(独自算出の注目度): 9.569646683579899
- License:
- Abstract: Depth estimation is a cornerstone for autonomous driving, yet acquiring per-pixel depth ground truth for supervised learning is challenging. Self-Supervised Surround Depth Estimation (SSSDE) from consecutive images offers an economical alternative. While previous SSSDE methods have proposed different mechanisms to fuse information across images, few of them explicitly consider the cross-view constraints, leading to inferior performance, particularly in overlapping regions. This paper proposes an efficient and consistent pose estimation design and two loss functions to enhance cross-view consistency for SSSDE. For pose estimation, we propose to use only front-view images to reduce training memory and sustain pose estimation consistency. The first loss function is the dense depth consistency loss, which penalizes the difference between predicted depths in overlapping regions. The second one is the multi-view reconstruction consistency loss, which aims to maintain consistency between reconstruction from spatial and spatial-temporal contexts. Additionally, we introduce a novel flipping augmentation to improve the performance further. Our techniques enable a simple neural model to achieve state-of-the-art performance on the DDAD and nuScenes datasets. Last but not least, our proposed techniques can be easily applied to other methods. The code will be made public.
- Abstract(参考訳): 深度推定は自動運転の基盤であるが、教師あり学習のための画素ごとの深度基底真理の取得は困難である。
連続画像からSSSDE(Self-Supervised Surround Depth Estimation)が経済的代替手段を提供する。
従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、特に重複する領域において、クロスビューの制約を明示的に考慮する者はほとんどいない。
本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
ポーズ推定のために、トレーニングメモリの削減とポーズ推定一貫性の維持のために、フロントビュー画像のみを使用することを提案する。
第1の損失関数は、重なり合う領域における予測された深さの差を罰する密度の深さ一貫性損失である。
2つ目は、空間的・時間的文脈からの再構成の整合性を維持することを目的とした多視点再構成整合性損失である。
さらに,さらなる性能向上を図るために,新規なフリップ拡張を導入する。
本手法により,DDADデータセットとnuScenesデータセット上での最先端のパフォーマンスを実現することができる。
最後に,提案手法を他の手法にも容易に適用することができる。
コードは公開されます。
関連論文リスト
- Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Deeper into Self-Supervised Monocular Indoor Depth Estimation [7.30562653023176]
単分子配列から室内深度を自己教師付きで学習することは、研究者にとって非常に難しい。
本研究では,IndoorDepthという手法を2つのイノベーションから構成する。
NYUv2ベンチマークの実験では、私たちのIndoorDepthは従来の最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-03T04:55:32Z) - Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - Image Reconstruction via Deep Image Prior Subspaces [0.18472148461613155]
ディープラーニングは画像再構成タスクの解決に広く利用されているが、高品質なトレーニングデータが不足しているため、そのデプロイ性は後退している。
本稿では、DIP最適化をパラメータの疎線型部分空間に制限することにより、これらの問題に対処する新しい手法を提案する。
部分空間の低次元性は、DIPのノイズに適合する傾向を減少させ、安定な2階最適化法を可能にする。
論文 参考訳(メタデータ) (2023-02-20T20:19:36Z) - CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised
Learning of Depth and Pose [13.581694284209885]
光度差は、未ラベルのモノクロビデオから深度とカメラのポーズを推定するためにニューラルネットワークを訓練するために使用される。
本稿では,アフィン変換とビュー合成によって生じる流れ場と深さ構造の違いを利用して,移動物体とオクルージョンを取り扱う。
ネットワークを追加することなく、より意味的な情報と文脈的な情報を持つ特徴の差を測定することにより、テクスチャレス領域がモデル最適化に与える影響を緩和する。
論文 参考訳(メタデータ) (2022-12-12T12:18:24Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Implicit Subspace Prior Learning for Dual-Blind Face Restoration [66.67059961379923]
新しい暗黙的サブスペース事前学習(ISPL)フレームワークが、二重盲顔復元の一般的な解決策として提案されている。
実験の結果,既存の最先端手法に対するISPLの認識歪改善が顕著であった。
論文 参考訳(メタデータ) (2020-10-12T08:04:24Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。