論文の概要: MeSa: Masked, Geometric, and Supervised Pre-training for Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2310.04551v1
- Date: Fri, 6 Oct 2023 19:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:51:38.932687
- Title: MeSa: Masked, Geometric, and Supervised Pre-training for Monocular Depth
Estimation
- Title(参考訳): MeSa: 単眼深度推定のための仮面・幾何学・教師付き事前トレーニング
- Authors: Muhammad Osama Khan, Junbang Liang, Chun-Kai Wang, Shan Yang, Yu Lou
- Abstract要約: マスク,幾何,および教師付き事前学習の相補的強みを利用する包括的フレームワークであるMeSaを提案する。
MeSaの利点は、マスク付き事前訓練によって学習される汎用表現だけでなく、幾何学的および教師あり事前訓練によって取得される専門的な深度特化特徴の恩恵である。
提案手法は,マスク付き事前トレーニングSSL方式をRMSEで17.1%のマージンで上回っている。
- 参考スコア(独自算出の注目度): 16.603313720568465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has been an important ingredient in developing strong monocular
depth estimation models in recent years. For instance, self-supervised learning
(SSL) is particularly effective by alleviating the need for large datasets with
dense ground-truth depth maps. However, despite these improvements, our study
reveals that the later layers of the SOTA SSL method are actually suboptimal.
By examining the layer-wise representations, we demonstrate significant changes
in these later layers during fine-tuning, indicating the ineffectiveness of
their pre-trained features for depth estimation. To address these limitations,
we propose MeSa, a comprehensive framework that leverages the complementary
strengths of masked, geometric, and supervised pre-training. Hence, MeSa
benefits from not only general-purpose representations learnt via masked pre
training but also specialized depth-specific features acquired via geometric
and supervised pre-training. Our CKA layer-wise analysis confirms that our
pre-training strategy indeed produces improved representations for the later
layers, overcoming the drawbacks of the SOTA SSL method. Furthermore, via
experiments on the NYUv2 and IBims-1 datasets, we demonstrate that these
enhanced representations translate to performance improvements in both the
in-distribution and out-of-distribution settings. We also investigate the
influence of the pre-training dataset and demonstrate the efficacy of
pre-training on LSUN, which yields significantly better pre-trained
representations. Overall, our approach surpasses the masked pre-training SSL
method by a substantial margin of 17.1% on the RMSE. Moreover, even without
utilizing any recently proposed techniques, MeSa also outperforms the most
recent methods and establishes a new state-of-the-art for monocular depth
estimation on the challenging NYUv2 dataset.
- Abstract(参考訳): プレトレーニングは近年,強い単眼深度推定モデルの開発において重要な要素となっている。
例えば、自己教師付き学習(ssl)は、密接な基底深度マップを持つ大規模データセットの必要性を緩和することで特に効果的である。
しかし,これらの改善にもかかわらず,本研究では,SOTA SSL法の後半層が実際に最適であることを明らかにした。
層状表現を調べた結果, 微調整中の後層に有意な変化がみられ, 事前学習した特徴が深度推定に有効でないことが示唆された。
これらの制限に対処するために,マスク,幾何学,教師付き事前学習の補完的強みを活用した包括的フレームワークmesaを提案する。
したがって、MeSaはマスク付き事前訓練を通じて学習した汎用表現だけでなく、幾何学的および教師あり事前訓練を通じて取得した専門的な深度特化特徴の恩恵を受ける。
我々のCKA層解析は,SOTA SSL方式の欠点を克服して,後層に対する事前学習戦略が実際に改良された表現を生成することを確認した。
さらに,nyuv2 および ibims-1 データセットを用いた実験により,これらの拡張表現が,分布内および分布外の両方において性能向上をもたらすことを実証した。
また,プレトレーニングデータセットの影響について検討し,プレトレーニングの有効性をLSUNに示す。
全体として、本手法は、マスク付き事前トレーニングSSL方式をRMSEで17.1%のマージンで上回っている。
さらに、最近提案されたテクニックを使わずに、MeSaは最新の手法よりも優れており、挑戦的なNYUv2データセット上でモノクル深度を推定するための新しい最先端技術を確立している。
関連論文リスト
- Towards Full-parameter and Parameter-efficient Self-learning For Endoscopic Camera Depth Estimation [4.1676654279172265]
内視鏡的深度推定のための全パラメータおよびパラメータ効率学習フレームワークを提案する。
第1段階では、注意、畳み込み、多層知覚のサブ空間が異なるサブ空間内に同時に適応される。
第2段階では,部分空間合成におけるメモリ効率の最適化が提案され,性能がさらに向上した。
論文 参考訳(メタデータ) (2024-10-01T18:08:56Z) - How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained
Classification [38.68079253627819]
本ベンチマークは, avesおよびfungi分類のクラスをサンプリングして得られた2つの細粒度分類データセットからなる。
最近提案されたSSLメソッドは大きなメリットをもたらし、深いネットワークがゼロから訓練されたときにクラス外のデータを効果的にパフォーマンスを向上させることができます。
我々の研究は、現実的データセットの専門家による半教師付き学習は、現在文学で普及しているものとは異なる戦略を必要とする可能性があることを示唆している。
論文 参考訳(メタデータ) (2021-04-01T17:59:41Z) - Forget About the LiDAR: Self-Supervised Depth Estimators with MED
Probability Volumes [43.12433168745383]
自己教師付き深度推定器は、最近、難解な単一画像深度推定(SIDE)タスクにおける教師付き手法に匹敵する結果を示した。
これまでの研究は、厳密な測光仮定やSIDEネットワークに頼って、深度と閉塞を推測していた。
本研究では,深度推定器の訓練のための「LiDARについて探す」手法を提案する。
提案手法の有効性を検証するため,KITTI,CityScapes,Make3Dデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-08-09T03:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。