論文の概要: iBoot: Image-bootstrapped Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2206.08339v1
- Date: Thu, 16 Jun 2022 17:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:55:41.027621
- Title: iBoot: Image-bootstrapped Self-Supervised Video Representation Learning
- Title(参考訳): iboot: 自己教師付きビデオ表現学習
- Authors: Fatemeh Saleh, Fuwen Tan, Adrian Bulat, Georgios Tzimiropoulos, and
Brais Martinez
- Abstract要約: ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 45.845595749486215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual representations through self-supervision is an extremely
challenging task as the network needs to sieve relevant patterns from spurious
distractors without the active guidance provided by supervision. This is
achieved through heavy data augmentation, large-scale datasets and prohibitive
amounts of compute. Video self-supervised learning (SSL) suffers from added
challenges: video datasets are typically not as large as image datasets,
compute is an order of magnitude larger, and the amount of spurious patterns
the optimizer has to sieve through is multiplied several fold. Thus, directly
learning self-supervised representations from video data might result in
sub-optimal performance. To address this, we propose to utilize a strong
image-based model, pre-trained with self- or language supervision, in a video
representation learning framework, enabling the model to learn strong spatial
and temporal information without relying on the video labeled data. To this
end, we modify the typical video-based SSL design and objective to encourage
the video encoder to \textit{subsume} the semantic content of an image-based
model trained on a general domain. The proposed algorithm is shown to learn
much more efficiently (i.e. in less epochs and with a smaller batch) and
results in a new state-of-the-art performance on standard downstream tasks
among single-modality SSL methods.
- Abstract(参考訳): 自己監督による視覚表現の学習は、ネットワークが監督による積極的な指導なしに、刺激的な邪魔者から関連するパターンを抽出する必要があるため、非常に難しい作業である。
これは大量のデータ拡張、大規模なデータセット、そして計算量の制限によって実現される。
ビデオデータセットは通常、イメージデータセットほど大きくはなく、計算は桁違いに大きく、オプティマイザが取得しなければならないスプリアスパターンの量は、数倍に倍増します。
したがって、ビデオデータから自己教師付き表現を直接学習すると、準最適性能が得られる。
そこで本稿では,ビデオ表現学習フレームワークにおいて,自己や言語を事前学習した強力な画像ベースモデルを,ビデオラベル付きデータに頼らずに,強い空間的・時間的情報を学習可能にすることを提案する。
この目的のために、典型的ビデオベースのssl設計と目的を変更し、一般的なドメインでトレーニングされた画像ベースのモデルのセマンティックコンテンツである \textit{subsume} をビデオエンコーダに推奨する。
提案アルゴリズムはより効率的に学習できることが示され(例えば、エポックが小さく、バッチが小さい)、単一のモダリティSSLメソッド間の標準下流タスクにおける新しい最先端のパフォーマンスが得られる。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。