論文の概要: Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV
- arxiv url: http://arxiv.org/abs/2403.01569v1
- Date: Sun, 3 Mar 2024 17:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:44:59.586365
- Title: Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV
- Title(参考訳): kick back & relax++: slowtvとcribstvによる地上深度のスケーリング
- Authors: Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden
- Abstract要約: 本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
- 参考スコア(独自算出の注目度): 50.616892315086574
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning is the key to unlocking generic computer vision
systems. By eliminating the reliance on ground-truth annotations, it allows
scaling to much larger data quantities. Unfortunately, self-supervised
monocular depth estimation (SS-MDE) has been limited by the absence of diverse
training data. Existing datasets have focused exclusively on urban driving in
densely populated cities, resulting in models that fail to generalize beyond
this domain.
To address these limitations, this paper proposes two novel datasets: SlowTV
and CribsTV. These are large-scale datasets curated from publicly available
YouTube videos, containing a total of 2M training frames. They offer an
incredibly diverse set of environments, ranging from snowy forests to coastal
roads, luxury mansions and even underwater coral reefs. We leverage these
datasets to tackle the challenging task of zero-shot generalization,
outperforming every existing SS-MDE approach and even some state-of-the-art
supervised methods.
The generalization capabilities of our models are further enhanced by a range
of components and contributions: 1) learning the camera intrinsics, 2) a
stronger augmentation regime targeting aspect ratio changes, 3) support frame
randomization, 4) flexible motion estimation, 5) a modern transformer-based
architecture. We demonstrate the effectiveness of each component in extensive
ablation experiments. To facilitate the development of future research, we make
the datasets, code and pretrained models available to the public at
https://github.com/jspenmar/slowtv_monodepth.
- Abstract(参考訳): 自己教師型学習は汎用コンピュータビジョンシステムの鍵となる。
接地アノテーションへの依存をなくすことで、はるかに大きなデータ量へのスケーリングが可能になる。
残念ながら、ss-mde (self-supervised monocular depth estimation) は多様な訓練データがないため制限されている。
既存のデータセットは人口密度の高い都市における都市運転に特化しており、結果としてこの領域を超えて一般化できないモデルとなっている。
本稿では,これらの制約に対処するため,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、公開されているyoutubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームを含んでいる。
雪の森から海岸道路、豪華な邸宅、さらには水中のサンゴ礁まで、非常に多様な環境を提供している。
これらのデータセットを利用してゼロショット一般化の難題に取り組み、既存のSS-MDEアプローチや最先端の教師付き手法よりも優れています。
私たちのモデルの一般化能力は、様々なコンポーネントやコントリビューションによってさらに強化されます。
1)カメラの本質を学習する。
2)アスペクト比の変化を目標とした強化体制の強化。
3)フレームランダム化のサポート。
4) 柔軟な動き推定。
5) 現代的なトランスベースのアーキテクチャ。
広範囲のアブレーション実験において,各成分の有効性を示す。
将来の研究を容易にするため、データセット、コード、事前訓練されたモデルをhttps://github.com/jspenmar/slowtv_monodepth.comで公開しています。
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV [68.31957280416347]
自己教師付き単分子深度推定(SS-MDE)は、膨大な量のデータにスケールする可能性がある。
我々は,既存の自動車用データセットよりも桁違いに多くのデータを含む,YouTubeから収集した大規模SlowTVデータセットを提案する。
SS-MDEモデルをトレーニングし、屋内/屋外の大量のデータセットにゼロショットの一般化を提供する。
論文 参考訳(メタデータ) (2023-07-20T09:13:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。