論文の概要: Unsupervised Scale-consistent Depth Learning from Video
- arxiv url: http://arxiv.org/abs/2105.11610v1
- Date: Tue, 25 May 2021 02:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:09:55.184821
- Title: Unsupervised Scale-consistent Depth Learning from Video
- Title(参考訳): ビデオからの教師なしスケール一貫性深度学習
- Authors: Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang,
Chunhua Shen, Ming-Ming Cheng, Ian Reid
- Abstract要約: 本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
- 参考スコア(独自算出の注目度): 131.3074342883371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a monocular depth estimator SC-Depth, which requires only
unlabelled videos for training and enables the scale-consistent prediction at
inference time. Our contributions include: (i) we propose a geometry
consistency loss, which penalizes the inconsistency of predicted depths between
adjacent views; (ii) we propose a self-discovered mask to automatically
localize moving objects that violate the underlying static scene assumption and
cause noisy signals during training; (iii) we demonstrate the efficacy of each
component with a detailed ablation study and show high-quality depth estimation
results in both KITTI and NYUv2 datasets. Moreover, thanks to the capability of
scale-consistent prediction, we show that our monocular-trained deep networks
are readily integrated into the ORB-SLAM2 system for more robust and accurate
tracking. The proposed hybrid Pseudo-RGBD SLAM shows compelling results in
KITTI, and it generalizes well to the KAIST dataset without additional
training. Finally, we provide several demos for qualitative evaluation.
- Abstract(参考訳): そこで本研究では,学習のための未ラベル映像のみを必要とする単眼深度推定器sc-depthを提案する。
i) 隣接ビュー間の予測深度の不整合を罰する幾何学的整合性損失,(ii) 静的シーンの前提に反する移動物体を自動的に局所化し,トレーニング中にノイズを生じさせる自己発見マスク,(iii) 詳細なアブレーション研究により各コンポーネントの有効性を実証し,KITTIとNYUv2データセットの両方で高品質な深度推定結果を示す。
さらに、スケール一貫性のある予測能力により、我々の単眼訓練されたディープネットワークが、より堅牢で正確な追跡のために、orb-slam2システムに容易に統合されることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
最後に、定性評価のためのいくつかのデモを提供する。
関連論文リスト
- Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - On the non-universality of deep learning: quantifying the cost of
symmetry [24.86176236641865]
雑音勾配降下法(GD)で学習したニューラルネットワークによる学習の計算限界を証明する。
我々は、完全接続ネットワークが二進ハイパーキューブと単位球上で弱学習できる機能の特徴付けを行う。
我々の手法は勾配降下(SGD)に拡張され、完全に接続されたネットワークで学習するための非自明な結果を示す。
論文 参考訳(メタデータ) (2022-08-05T11:54:52Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Semantics-Driven Unsupervised Learning for Monocular Depth and
Ego-Motion Estimation [33.83396613039467]
ビデオからの単眼深度と自我運動推定のためのセマンティクス駆動型教師なし学習手法を提案する。
近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。
論文 参考訳(メタデータ) (2020-06-08T05:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。