論文の概要: ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2405.15160v1
- Date: Fri, 24 May 2024 02:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:18:44.255376
- Title: ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning
- Title(参考訳): ARVideo: 自己監督型ビデオ表現学習のための自己回帰型事前学習
- Authors: Sucheng Ren, Hongru Zhu, Chen Wei, Yijiang Li, Alan Yuille, Cihang Xie,
- Abstract要約: 本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
- 参考スコア(独自算出の注目度): 29.620990627792906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new self-supervised video representation learning framework, ARVideo, which autoregressively predicts the next video token in a tailored sequence order. Two key designs are included. First, we organize autoregressive video tokens into clusters that span both spatially and temporally, thereby enabling a richer aggregation of contextual information compared to the standard spatial-only or temporal-only clusters. Second, we adopt a randomized spatiotemporal prediction order to facilitate learning from multi-dimensional data, addressing the limitations of a handcrafted spatial-first or temporal-first sequence order. Extensive experiments establish ARVideo as an effective paradigm for self-supervised video representation learning. For example, when trained with the ViT-B backbone, ARVideo competitively attains 81.2% on Kinetics-400 and 70.9% on Something-Something V2, which are on par with the strong benchmark set by VideoMAE. Importantly, ARVideo also demonstrates higher training efficiency, i.e., it trains 14% faster and requires 58% less GPU memory compared to VideoMAE.
- Abstract(参考訳): 本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
主なデザインは2つある。
まず,自己回帰的ビデオトークンを空間的および時間的の両方にまたがるクラスタに整理することにより,標準的な空間的,時間的のみのクラスタと比較して,コンテキスト情報のリッチな集約を可能にする。
第2に、多次元データからの学習を容易にするために、ランダム化された時空間予測順序を採用し、手作りの空間優先順序または時間優先順序の制限に対処する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
例えば、VT-Bのバックボーンでトレーニングすると、ARVideoはKinetics-400で81.2%、Something V2で70.9%の競争力を持つ。
重要な点として、ARVideoはトレーニング効率の向上も示している。つまり、トレーニングを14%高速化し、ビデオMAEに比べて58%のGPUメモリを必要とする。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Learn2Augment: Learning to Composite Videos for Data Augmentation in
Action Recognition [47.470845728457135]
我々は、アクション認識のための優れたビデオを作るものを学び、拡張のための高品質なサンプルのみを選択する。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
半教師付き環境では最大8.6%の改善が見られる。
論文 参考訳(メタデータ) (2022-06-09T23:04:52Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。