論文の概要: NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training
- arxiv url: http://arxiv.org/abs/2408.14177v1
- Date: Mon, 26 Aug 2024 10:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:23:20.198967
- Title: NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training
- Title(参考訳): NimbleD:擬似ラベルと大規模ビデオ事前学習による自己教師型単眼深度推定の強化
- Authors: Albert Luginov, Muhammad Shahzad,
- Abstract要約: 我々は,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。
このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。
- 参考スコア(独自算出の注目度): 2.4240014793575138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce NimbleD, an efficient self-supervised monocular depth estimation learning framework that incorporates supervision from pseudo-labels generated by a large vision model. This framework does not require camera intrinsics, enabling large-scale pre-training on publicly available videos. Our straightforward yet effective learning strategy significantly enhances the performance of fast and lightweight models without introducing any overhead, allowing them to achieve performance comparable to state-of-the-art self-supervised monocular depth estimation models. This advancement is particularly beneficial for virtual and augmented reality applications requiring low latency inference. The source code, model weights, and acknowledgments are available at https://github.com/xapaxca/nimbled .
- Abstract(参考訳): 我々は,大規模な視覚モデルによって生成された擬似ラベルからの監督を取り入れた,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。
このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。
我々の単純で効果的な学習戦略は、オーバーヘッドを伴わずに高速で軽量なモデルの性能を大幅に向上させ、最先端の自己教師型単分子深度推定モデルに匹敵する性能を達成する。
この進歩は、低レイテンシ推論を必要とするバーチャルおよび拡張現実アプリケーションにとって特に有益である。
ソースコード、モデルウェイト、および承認はhttps://github.com/xapaxca/nimbled で入手できる。
関連論文リスト
- Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - SelfOdom: Self-supervised Egomotion and Depth Learning via
Bi-directional Coarse-to-Fine Scale Recovery [12.791122117651273]
SelfOdomは、単眼画像からポーズと深さの推定を学習するための、自己教師付きデュアルネットワークフレームワークである。
2段階のプロセスでメートル法スケールを回復できる新しい粗大なトレーニング戦略を導入する。
私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。
論文 参考訳(メタデータ) (2022-11-16T13:36:19Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。
ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。
提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文 参考訳(メタデータ) (2022-03-19T15:12:06Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。