Fugu-MT 論文翻訳(概要): NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training

論文の概要: NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training

arxiv url: http://arxiv.org/abs/2408.14177v1
Date: Mon, 26 Aug 2024 10:50:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 14:23:20.198967
Title: NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training
Title（参考訳）: NimbleD:擬似ラベルと大規模ビデオ事前学習による自己教師型単眼深度推定の強化
Authors: Albert Luginov, Muhammad Shahzad,
Abstract要約: 我々は,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。
参考スコア（独自算出の注目度）: 2.4240014793575138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce NimbleD, an efficient self-supervised monocular depth estimation learning framework that incorporates supervision from pseudo-labels generated by a large vision model. This framework does not require camera intrinsics, enabling large-scale pre-training on publicly available videos. Our straightforward yet effective learning strategy significantly enhances the performance of fast and lightweight models without introducing any overhead, allowing them to achieve performance comparable to state-of-the-art self-supervised monocular depth estimation models. This advancement is particularly beneficial for virtual and augmented reality applications requiring low latency inference. The source code, model weights, and acknowledgments are available at https://github.com/xapaxca/nimbled .
Abstract（参考訳）: 我々は,大規模な視覚モデルによって生成された擬似ラベルからの監督を取り入れた,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。我々の単純で効果的な学習戦略は、オーバーヘッドを伴わずに高速で軽量なモデルの性能を大幅に向上させ、最先端の自己教師型単分子深度推定モデルに匹敵する性能を達成する。この進歩は、低レイテンシ推論を必要とするバーチャルおよび拡張現実アプリケーションにとって特に有益である。ソースコード、モデルウェイト、および承認はhttps://github.com/xapaxca/nimbled で入手できる。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文参考訳（メタデータ） (2024-12-06T18:41:39Z)
Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-06-14T07:31:20Z)
GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文参考訳（メタデータ） (2023-09-26T17:59:57Z)
SelfOdom: Self-supervised Egomotion and Depth Learning via Bi-directional Coarse-to-Fine Scale Recovery [12.791122117651273]
SelfOdomは、単眼画像からポーズと深さの推定を学習するための、自己教師付きデュアルネットワークフレームワークである。 2段階のプロセスでメートル法スケールを回復できる新しい粗大なトレーニング戦略を導入する。私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。
論文参考訳（メタデータ） (2022-11-16T13:36:19Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文参考訳（メタデータ） (2022-07-11T07:50:22Z)
Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文参考訳（メタデータ） (2022-03-19T15:12:06Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文参考訳（メタデータ） (2020-08-10T10:52:47Z)
MiniNet: An extremely lightweight convolutional neural network for real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文参考訳（メタデータ） (2020-06-27T12:13:22Z)
Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。 i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文参考訳（メタデータ） (2020-06-22T17:55:59Z)
Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文参考訳（メタデータ） (2020-06-17T13:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。