論文の概要: A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning
- arxiv url: http://arxiv.org/abs/2104.14558v1
- Date: Thu, 29 Apr 2021 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:14:03.235692
- Title: A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning
- Title(参考訳): 教師なし時空間表現学習に関する大規模研究
- Authors: Christoph Feichtenhofer, Haoqi Fan, Bo Xiong, Ross Girshick, Kaiming
He
- Abstract要約: 本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
- 参考スコア(独自算出の注目度): 60.720251418816815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a large-scale study on unsupervised spatiotemporal representation
learning from videos. With a unified perspective on four recent image-based
frameworks, we study a simple objective that can easily generalize all these
methods to space-time. Our objective encourages temporally-persistent features
in the same video, and in spite of its simplicity, it works surprisingly well
across: (i) different unsupervised frameworks, (ii) pre-training datasets,
(iii) downstream datasets, and (iv) backbone architectures. We draw a series of
intriguing observations from this study, e.g., we discover that encouraging
long-spanned persistency can be effective even if the timespan is 60 seconds.
In addition to state-of-the-art results in multiple benchmarks, we report a few
promising cases in which unsupervised pre-training can outperform its
supervised counterpart. Code is made available at
https://github.com/facebookresearch/SlowFast
- Abstract(参考訳): 本稿では,ビデオからの非教師なし時空間表現学習に関する大規模研究を行う。
近年の4つの画像ベースフレームワークの統一的な視点から、これらの手法を時空に簡単に一般化できる単純な目的について検討する。
我々の目標は、同じビデオで時間的に持続する機能を奨励し、そのシンプルさにもかかわらず、驚くほどうまく機能します。 (i) 異なる教師なしフレームワーク、 (ii) 事前トレーニングデータセット、 (iii) 下流データセット、 (iv) バックボーンアーキテクチャ。
この研究から, 長寿命の持続性を促進することが, 60秒のタイムスパンであっても有効であることを発見した。
複数のベンチマークにおける最先端の結果に加えて、教師なし事前学習が監督対象よりも優れているといういくつかの有望な事例を報告する。
コードはhttps://github.com/facebookresearch/slowfastで入手できる。
関連論文リスト
- A Large-scale Study of Spatiotemporal Representation Learning with a New
Benchmark on Action Recognition [14.226201098201244]
BEARは5つのカテゴリ(異常、ジェスチャー、毎日、スポーツ、教育)に分類される18のビデオデータセットのコレクションである。
教師付き学習と自己指導型学習の両方によって事前訓練された6つの共通時間モデルについて、徹底的に評価した。
我々の観察では、現在の最先端技術は、実世界のアプリケーションに近いデータセット上でのハイパフォーマンスを確実に保証できないことを示唆している。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - DyG2Vec: Efficient Representation Learning for Dynamic Graphs [26.792732615703372]
時間グラフニューラルネットワークは、時間パターンを自動的に抽出することで、帰納的表現の学習において有望な結果を示している。
時間的エッジエンコーディングとウィンドウベースのサブグラフサンプリングを利用してタスクに依存しない埋め込みを生成する。
論文 参考訳(メタデータ) (2022-10-30T18:13:04Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation [121.5383855764944]
コントラッシブな自己教師学習を用いて、シングルビュービデオからリッチな潜伏ベクトルを抽出する。
また,CSSを時間変化の特徴のみに適用すると同時に,入力を再構築し,近辺と遠方の特徴間の段階的な遷移を促すことにより,リッチな潜伏空間が得られることを示す。
本手法は他の教師なしシングルビュー手法よりも優れており,マルチビュー手法の性能と一致している。
論文 参考訳(メタデータ) (2020-12-02T20:27:35Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。