論文の概要: Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2112.04011v1
- Date: Tue, 7 Dec 2021 21:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:24:15.024469
- Title: Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation
- Title(参考訳): 類似性に基づく知識蒸留による自己監督型映像表現のための補助学習
- Authors: Amirhossein Dadashzadeh, Alan Whone, Majid Mirmehdi
- Abstract要約: 本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
- 参考スコア(独自算出の注目度): 2.6519061087638014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the outstanding success of self-supervised pretraining methods for
video representation learning, they generalise poorly when the unlabeled
dataset for pretraining is small or the domain difference between unlabelled
data in source task (pretraining) and labeled data in target task (finetuning)
is significant. To mitigate these issues, we propose a novel approach to
complement self-supervised pretraining via an auxiliary pretraining phase,
based on knowledge similarity distillation, auxSKD, for better generalisation
with a significantly smaller amount of video data, e.g. Kinetics-100 rather
than Kinetics-400. Our method deploys a teacher network that iteratively
distils its knowledge to the student model by capturing the similarity
information between segments of unlabelled video data. The student model then
solves a pretext task by exploiting this prior knowledge. We also introduce a
novel pretext task, Video Segment Pace Prediction or VSPP, which requires our
model to predict the playback speed of a randomly selected segment of the input
video to provide more reliable self-supervised representations. Our
experimental results show superior results to the state of the art on both
UCF101 and HMDB51 datasets when pretraining on K100. Additionally, we show that
our auxiliary pertaining, auxSKD, when added as an extra pretraining phase to
recent state of the art self-supervised methods (e.g. VideoPace and RSPNet),
improves their results on UCF101 and HMDB51. Our code will be released soon.
- Abstract(参考訳): ビデオ表現学習のための自己教師付き事前学習手法が際立った成功にもかかわらず、事前学習のためのラベル付きデータセットが小さい場合や、ソースタスク(事前学習)におけるラベル付きデータとターゲットタスク(ファインタニング)におけるラベル付きデータとの領域差が重要である場合、それらを一般化する。
これらの問題を緩和するため,Kineetics-400 ではなく Kinetics-100 などのビデオデータを用いて,知識類似度蒸留法である auxSKD に基づいて,自己指導型プレトレーニングを補助的プレトレーニングフェーズで補完する手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,ビデオデータのセグメント間の類似性情報をキャプチャすることで展開する。
学生モデルは、この事前知識を活用することによって、プレテキストタスクを解決する。
また,新たなプリテキストタスクであるビデオセグメントペース予測(vspp)を導入することで,入力映像のランダムに選択されたセグメントの再生速度を予測し,より信頼性の高い自己教師付き表現を提供する。
実験の結果,UCF101データセットとHMDB51データセットの両方で,K100で事前トレーニングを行う場合,技術の現状に優れた結果が得られた。
さらに,我々の補助的関連であるauxSKDは,最近の自己管理手法( VideoPace や RSPNet など)に追加の事前訓練フェーズとして付加された場合,UCF101 と HMDB51 の成績が向上することを示した。
私たちのコードはまもなくリリースされます。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training [0.0]
本稿では,コントラスト学習に基づく新しい学習手法であるLAVAを提案する。
LAVAが現在最先端の自己監督型・弱監督型事前訓練技術と競合することを示す。
論文 参考訳(メタデータ) (2022-07-16T21:46:16Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。