論文の概要: Scaling 4D Representations
- arxiv url: http://arxiv.org/abs/2412.15212v1
- Date: Thu, 19 Dec 2024 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:38.344014
- Title: Scaling 4D Representations
- Title(参考訳): 4D表現のスケーリング
- Authors: João Carreira, Dilara Gokay, Michael King, Chuhan Zhang, Ignacio Rocco, Aravindh Mahendran, Thomas Albert Keck, Joseph Heyward, Skanda Koppula, Etienne Pot, Goker Erdogan, Yana Hasson, Yi Yang, Klaus Greff, Guillaume Le Moing, Sjoerd van Steenkiste, Daniel Zoran, Drew A. Hudson, Pedro Vélez, Luisa Polanía, Luke Friedman, Chris Duvarney, Ross Goroshin, Kelsey Allen, Jacob Walker, Rishabh Kabra, Eric Aboussouan, Jennifer Sun, Thomas Kipf, Carl Doersch, Viorica Pătrăucean, Dima Damen, Pauline Luc, Mehdi S. M. Sajjadi, Andrew Zisserman,
- Abstract要約: ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
- 参考スコア(独自算出の注目度): 77.85462796134455
- License:
- Abstract: Scaling has not yet been convincingly demonstrated for pure self-supervised learning from video. However, prior work has focused evaluations on semantic-related tasks $\unicode{x2013}$ action classification, ImageNet classification, etc. In this paper we focus on evaluating self-supervised learning on non-semantic vision tasks that are more spatial (3D) and temporal (+1D = 4D), such as camera pose estimation, point and object tracking, and depth estimation. We show that by learning from very large video datasets, masked auto-encoding (MAE) with transformer video models actually scales, consistently improving performance on these 4D tasks, as model size increases from 20M all the way to the largest by far reported self-supervised video model $\unicode{x2013}$ 22B parameters. Rigorous apples-to-apples comparison with many recent image and video models demonstrates the benefits of scaling 4D representations.
- Abstract(参考訳): ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
しかし、以前の作業では、セマンティック関連タスク $\unicode{x2013}$アクション分類、ImageNet分類などに焦点を当てていた。
本稿では,空間的・時間的(+1D = 4D)な非意味的視覚課題(例えばカメラポーズ推定,点・物体追跡,深度推定など)に対する自己指導型学習の評価に焦点をあてる。
非常に大きなビデオデータセットから学習することで、トランスフォーマービデオモデルによるマスク付きオートエンコーディング(MAE)が実際にスケールし、モデルのサイズが20万から最大に増加するにつれて、これらの4Dタスクのパフォーマンスが一貫して向上することを示した。
最近の画像やビデオモデルと比較すると、4D表現のスケーリングの利点が示されています。
関連論文リスト
- Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)データに関する共同トレーニングを提唱する。
4DiMは、パノラマ縫合の改善、ビデオ翻訳のためのポーズ付きビデオ、その他いくつかのタスクにも使用されている。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - Segment Any 4D Gaussians [69.53172192552508]
我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。
SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
論文 参考訳(メタデータ) (2024-07-05T13:44:15Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning [38.6654451726187]
MIM4Dはデュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムである
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
自動運転における視覚的表現学習のためのnuScenesデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-13T17:58:00Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。