論文の概要: SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning
- arxiv url: http://arxiv.org/abs/2504.05706v1
- Date: Tue, 08 Apr 2025 06:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:50.192954
- Title: SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning
- Title(参考訳): SEVERE++:ビデオ表現学習の一般化におけるベンチマーク感度の評価
- Authors: Fida Mohammad Thoker, Letian Jiang, Chen Zhao, Piyush Bagad, Hazel Doughty, Bernard Ghanem, Cees G. M. Snoek,
- Abstract要約: 本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
- 参考スコア(独自算出の注目度): 78.44705665291741
- License:
- Abstract: Continued advances in self-supervised learning have led to significant progress in video representation learning, offering a scalable alternative to supervised approaches by removing the need for manual annotations. Despite strong performance on standard action recognition benchmarks, video self-supervised learning methods are largely evaluated under narrow protocols, typically pretraining on Kinetics-400 and fine-tuning on similar datasets, limiting our understanding of their generalization in real world scenarios. In this work, we present a comprehensive evaluation of modern video self-supervised models, focusing on generalization across four key downstream factors: domain shift, sample efficiency, action granularity, and task diversity. Building on our prior work analyzing benchmark sensitivity in CNN-based contrastive learning, we extend the study to cover state-of-the-art transformer-based video-only and video-text models. Specifically, we benchmark 12 transformer-based methods (7 video-only, 5 video-text) and compare them to 10 CNN-based methods, totaling over 1100 experiments across 8 datasets and 7 downstream tasks. Our analysis shows that, despite architectural advances, transformer-based models remain sensitive to downstream conditions. No method generalizes consistently across all factors, video-only transformers perform better under domain shifts, CNNs outperform for fine-grained tasks, and video-text models often underperform despite large scale pretraining. We also find that recent transformer models do not consistently outperform earlier approaches. Our findings provide a detailed view of the strengths and limitations of current video SSL methods and offer a unified benchmark for evaluating generalization in video representation learning.
- Abstract(参考訳): 自己教師付き学習の継続的な進歩は、ビデオ表現学習の大幅な進歩をもたらし、手動アノテーションの必要性を取り除き、教師付きアプローチに代わるスケーラブルな代替手段を提供する。
標準アクション認識ベンチマークの性能は高いが、ビデオ自己教師付き学習手法は、通常はkinetics-400で事前訓練され、類似したデータセットで微調整され、実世界のシナリオにおけるそれらの一般化の理解が制限される。
本研究では、ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てた、現代的なビデオ自己監督モデルの包括的な評価を行う。
CNNに基づくコントラスト学習におけるベンチマーク感度分析の先行研究に基づいて、この研究を最先端のトランスフォーマーベースのビデオオンリーおよびビデオテキストモデルに拡張する。
具体的には、12のトランスフォーマーベースの手法(ビデオのみ、7つのビデオテキスト)をベンチマークし、10のCNNベースの手法と比較し、8つのデータセットと7つのダウンストリームタスクで合計1100以上の実験を行った。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
ビデオのみのトランスフォーマーはドメインシフト下では向上し、CNNはきめ細かなタスクでは性能が良く、ビデオテキストモデルは大規模な事前訓練にもかかわらず性能が劣る。
また、最近の変圧器モデルは、従来よりも一貫して優れているわけではないことも判明した。
本研究は,現在のビデオSSL手法の長所と短所を詳細に把握し,ビデオ表現学習における一般化を評価するための統一的なベンチマークを提供する。
関連論文リスト
- Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning? [19.920980847895233]
我々は、現在使用されているベンチマーク基準に対して、ビデオ自己教師型学習がどれほど敏感であるかを調査する。
500以上の実験を総合的に比較したところ、ビデオ自己教師型学習における現在のベンチマークは、一般化のよい指標ではないことが判明した。
論文 参考訳(メタデータ) (2022-03-27T06:32:55Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。