論文の概要: Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV
- arxiv url: http://arxiv.org/abs/2307.10713v1
- Date: Thu, 20 Jul 2023 09:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:49:28.227813
- Title: Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV
- Title(参考訳): Kick Back & Relax: SlowTVで世界を再構築する方法を学ぶ
- Authors: Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
- Abstract要約: 自己教師付き単分子深度推定(SS-MDE)は、膨大な量のデータにスケールする可能性がある。
我々は,既存の自動車用データセットよりも桁違いに多くのデータを含む,YouTubeから収集した大規模SlowTVデータセットを提案する。
SS-MDEモデルをトレーニングし、屋内/屋外の大量のデータセットにゼロショットの一般化を提供する。
- 参考スコア(独自算出の注目度): 68.31957280416347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised monocular depth estimation (SS-MDE) has the potential to
scale to vast quantities of data. Unfortunately, existing approaches limit
themselves to the automotive domain, resulting in models incapable of
generalizing to complex environments such as natural or indoor settings.
To address this, we propose a large-scale SlowTV dataset curated from
YouTube, containing an order of magnitude more data than existing automotive
datasets. SlowTV contains 1.7M images from a rich diversity of environments,
such as worldwide seasonal hiking, scenic driving and scuba diving. Using this
dataset, we train an SS-MDE model that provides zero-shot generalization to a
large collection of indoor/outdoor datasets. The resulting model outperforms
all existing SSL approaches and closes the gap on supervised SoTA, despite
using a more efficient architecture.
We additionally introduce a collection of best-practices to further maximize
performance and zero-shot generalization. This includes 1) aspect ratio
augmentation, 2) camera intrinsic estimation, 3) support frame randomization
and 4) flexible motion estimation. Code is available at
https://github.com/jspenmar/slowtv_monodepth.
- Abstract(参考訳): 自己教師付き単眼深度推定(ss-mde)は、膨大なデータにスケールする可能性がある。
残念ながら、既存のアプローチは自動車領域に限定しており、自然環境や屋内環境といった複雑な環境に一般化できない。
そこで我々は,既存の自動車用データセットよりも桁違いに多くのデータを含む,youtubeから収集した大規模slowtvデータセットを提案する。
SlowTVは、世界の季節的ハイキング、観光運転、スキューバダイビングなど、多様な環境からの1.7Mイメージを含んでいる。
このデータセットを用いて、屋内/屋外の大量のデータセットにゼロショットの一般化を提供するSS-MDEモデルを訓練する。
結果として得られたモデルは、より効率的なアーキテクチャを使用しても、既存のSSLアプローチをすべて上回り、教師付きSoTAのギャップを埋める。
さらに,性能とゼロショット一般化をさらに最大化するために,ベストプラクティスのコレクションも導入する。
これには
1)アスペクト比の増大
2)カメラ固有の推定
3)フレームランダム化とサポート
4) 柔軟な動き推定。
コードはhttps://github.com/jspenmar/slowtv_monodepthで入手できる。
関連論文リスト
- SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。