論文の概要: A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2504.06153v1
- Date: Tue, 08 Apr 2025 15:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:34.163459
- Title: A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning
- Title(参考訳): 文脈的自己監督型映像表現学習の大規模分析
- Authors: Akash Kumar, Ashlesha Kumar, Vibhav Vineet, Yogesh S Rawat,
- Abstract要約: 異なる手法間の公正な比較を可能にする統一されたベンチマークを確立する。
本研究では,(1)データセットのサイズ,(2)モデル複雑性,(3)データ分布,(4)データノイズ,(5)特徴表現の5つの重要な側面について検討する。
本稿では,10%以上の事前学習データに依存する最先端の手法を超越しながら,トレーニングデータ要求を大幅に削減する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 22.870129496984546
- License:
- Abstract: Self-supervised learning has emerged as a powerful paradigm for label-free model pretraining, particularly in the video domain, where manual annotation is costly and time-intensive. However, existing self-supervised approaches employ diverse experimental setups, making direct comparisons challenging due to the absence of a standardized benchmark. In this work, we establish a unified benchmark that enables fair comparisons across different methods. Additionally, we systematically investigate five critical aspects of self-supervised learning in videos: (1) dataset size, (2) model complexity, (3) data distribution, (4) data noise, and (5) feature representations. To facilitate this study, we evaluate six self-supervised learning methods across six network architectures, conducting extensive experiments on five benchmark datasets and assessing performance on two distinct downstream tasks. Our analysis reveals key insights into the interplay between pretraining strategies, dataset characteristics, pretext tasks, and model architectures. Furthermore, we extend these findings to Video Foundation Models (ViFMs), demonstrating their relevance in large-scale video representation learning. Finally, leveraging these insights, we propose a novel approach that significantly reduces training data requirements while surpassing state-of-the-art methods that rely on 10% more pretraining data. We believe this work will guide future research toward a deeper understanding of self-supervised video representation learning and its broader implications.
- Abstract(参考訳): 自己教師付き学習は、特に手動アノテーションが高価で時間を要するビデオドメインにおいて、ラベルなしモデル事前トレーニングの強力なパラダイムとして現れています。
しかし、既存の自己監督型アプローチは様々な実験的な設定を採用しており、標準ベンチマークがないため直接比較は困難である。
本研究では,異なる手法間の公正な比較を可能にする統一ベンチマークを確立する。
さらに,(1)データセットのサイズ,(2)モデル複雑度,(3)データ分布,(4)データノイズ,(5)特徴表現の5つの重要な側面を体系的に検討した。
本研究は,6つのネットワークアーキテクチャを対象とした6つの自己教師型学習手法の評価と,5つのベンチマークデータセットの広範な実験,および2つの異なる下流タスクの性能評価を行う。
我々の分析は、事前学習戦略、データセットの特徴、プレテキストタスク、モデルアーキテクチャ間の相互作用に関する重要な洞察を明らかにする。
さらに、これらの知見をビデオファウンデーションモデル(ViFM)に拡張し、大規模ビデオ表現学習におけるそれらの関連性を示す。
最後に,これらの知見を生かして,より10%の事前学習データに依存する最先端の手法を超越しながら,トレーニングデータ要求を大幅に削減する手法を提案する。
本研究は,自己指導型映像表現学習のより深い理解に向けて,今後の研究を導くものであると我々は信じている。
関連論文リスト
- A Large-Scale Analysis on Self-Supervised Video Representation Learning [15.205738030787673]
本研究では,1)データセットのサイズ,2)複雑性,3)データ分布,4)データノイズ,5)機能解析の5つの側面について検討する。
この研究から得られた興味深い洞察は、事前学習とターゲットデータセット、プレテキストタスク、モデルアーキテクチャの様々な特性にまたがる。
本稿では,限られたトレーニングデータを必要とするアプローチを提案し,従来の10倍の事前学習データを用いた最先端のアプローチより優れた手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T16:27:14Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning? [19.920980847895233]
我々は、現在使用されているベンチマーク基準に対して、ビデオ自己教師型学習がどれほど敏感であるかを調査する。
500以上の実験を総合的に比較したところ、ビデオ自己教師型学習における現在のベンチマークは、一般化のよい指標ではないことが判明した。
論文 参考訳(メタデータ) (2022-03-27T06:32:55Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。