論文の概要: Class-Incremental Learning for Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2203.13611v1
- Date: Fri, 25 Mar 2022 12:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:25:51.131727
- Title: Class-Incremental Learning for Action Recognition in Videos
- Title(参考訳): ビデオにおける行動認識のためのクラスインクリメンタル学習
- Authors: Jaeyoo Park, Minsoo Kang, Bohyung Han
- Abstract要約: ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
- 参考スコア(独自算出の注目度): 44.923719189467164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle catastrophic forgetting problem in the context of class-incremental
learning for video recognition, which has not been explored actively despite
the popularity of continual learning. Our framework addresses this challenging
task by introducing time-channel importance maps and exploiting the importance
maps for learning the representations of incoming examples via knowledge
distillation. We also incorporate a regularization scheme in our objective
function, which encourages individual features obtained from different time
steps in a video to be uncorrelated and eventually improves accuracy by
alleviating catastrophic forgetting. We evaluate the proposed approach on
brand-new splits of class-incremental action recognition benchmarks constructed
upon the UCF101, HMDB51, and Something-Something V2 datasets, and demonstrate
the effectiveness of our algorithm in comparison to the existing continual
learning methods that are originally designed for image data.
- Abstract(参考訳): 我々は,連続学習の普及にもかかわらず積極的に研究されていない映像認識のためのクラスインクリメンタル学習の文脈において,破滅的な忘れ方問題に取り組む。
当社のフレームワークは,タイムチャネル重要度マップを導入し,知識蒸留によるサンプル表現の学習に重要度マップを活用することで,この課題に対処しています。
また、目的関数に正規化スキームを組み込み、ビデオ中の異なる時間ステップから得られる個々の特徴を非相関にし、破滅的忘れを緩和することで精度を向上させる。
提案手法は,uff101,hmdb51,その他v2データセット上に構築したクラスインクリメンタルな行動認識ベンチマークを新たに分割し,従来の画像データのための連続学習手法と比較し,提案手法の有効性を実証する。
関連論文リスト
- Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - A baseline on continual learning methods for video action recognition [15.157938674002793]
継続学習は、古典的な教師付きモデルの長期的制限を解決することを目的としている。
本稿では,映像行動認識における最先端の連続学習手法のベンチマークを示す。
論文 参考訳(メタデータ) (2023-04-20T14:20:43Z) - Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation
For Action Recognition [8.571437792425417]
本研究では,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を併用した新しい伝達学習手法を提案する。
具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
論文 参考訳(メタデータ) (2022-05-01T16:31:25Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Incremental Learning from Low-labelled Stream Data in Open-Set Video
Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。
本手法は,教師なしの操作データを用いて認識性を向上させる。
結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文 参考訳(メタデータ) (2020-12-17T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。