論文の概要: Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation
For Action Recognition
- arxiv url: http://arxiv.org/abs/2205.00506v1
- Date: Sun, 1 May 2022 16:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 03:17:36.157809
- Title: Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation
For Action Recognition
- Title(参考訳): 事前学習した知識を保存する:行動認識のための自己蒸留による伝達学習
- Authors: Yang Zhou, Zhanhao He, Keyu Lu, Guanhong Wang, Gaoang Wang
- Abstract要約: 本研究では,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を併用した新しい伝達学習手法を提案する。
具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
- 参考スコア(独自算出の注目度): 8.571437792425417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based action recognition is one of the most popular topics in computer
vision. With recent advances of selfsupervised video representation learning
approaches, action recognition usually follows a two-stage training framework,
i.e., self-supervised pre-training on large-scale unlabeled sets and transfer
learning on a downstream labeled set. However, catastrophic forgetting of the
pre-trained knowledge becomes the main issue in the downstream transfer
learning of action recognition, resulting in a sub-optimal solution. In this
paper, to alleviate the above issue, we propose a novel transfer learning
approach that combines self-distillation in fine-tuning to preserve knowledge
from the pre-trained model learned from the large-scale dataset. Specifically,
we fix the encoder from the last epoch as the teacher model to guide the
training of the encoder from the current epoch in the transfer learning. With
such a simple yet effective learning strategy, we outperform state-of-the-art
methods on widely used UCF101 and HMDB51 datasets in action recognition task.
- Abstract(参考訳): ビデオに基づく行動認識はコンピュータビジョンで最も人気のあるトピックの1つである。
近年の自己教師付きビデオ表現学習手法の進歩により、アクション認識は通常、大規模無ラベル集合の自己教師付き事前学習と下流ラベル付き集合の転送学習という2段階のトレーニングフレームワークに従っている。
しかし、事前学習された知識の破滅的な忘れは、行動認識の下流伝達学習において主要な問題となり、結果として準最適解となる。
本稿では,この課題を解消するために,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を組み合わせる新しいトランスファー学習手法を提案する。
具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
このようなシンプルで効果的な学習戦略により、動作認識タスクにおいて広く使われているUCF101およびHMDB51データセットに対して最先端の手法より優れている。
関連論文リスト
- PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Incremental Learning from Low-labelled Stream Data in Open-Set Video
Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。
本手法は,教師なしの操作データを用いて認識性を向上させる。
結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文 参考訳(メタデータ) (2020-12-17T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。