論文の概要: When Video Classification Meets Incremental Classes
- arxiv url: http://arxiv.org/abs/2106.15827v1
- Date: Wed, 30 Jun 2021 06:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:33:05.846242
- Title: When Video Classification Meets Incremental Classes
- Title(参考訳): ビデオ分類がインクリメンタルなクラスを満たすと
- Authors: Hanbin Zhao, Xin Qin, Shihao Su, Zibo Lin, Xi Li
- Abstract要約: 本稿では,忘れを忘れるテキスト触媒の課題に対処する枠組みを提案する。
まず, 蒸留前の粒度・時間的知識を緩和する。
第2に,古いクラスとキーフレームの代表的なビデオインスタンスを,厳密なストレージ予算の下で選択・保存する,二重例選択手法を提案する。
- 参考スコア(独自算出の注目度): 12.322018693269952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of social media, tremendous videos with new
classes are generated daily, which raise an urgent demand for video
classification methods that can continuously update new classes while
maintaining the knowledge of old videos with limited storage and computing
resources. In this paper, we summarize this task as \textit{Class-Incremental
Video Classification (CIVC)} and propose a novel framework to address it. As a
subarea of incremental learning tasks, the challenge of \textit{catastrophic
forgetting} is unavoidable in CIVC. To better alleviate it, we utilize some
characteristics of videos. First, we decompose the spatio-temporal knowledge
before distillation rather than treating it as a whole in the knowledge
transfer process; trajectory is also used to refine the decomposition. Second,
we propose a dual granularity exemplar selection method to select and store
representative video instances of old classes and key-frames inside videos
under a tight storage budget. We benchmark our method and previous SOTA
class-incremental learning methods on Something-Something V2 and Kinetics
datasets, and our method outperforms previous methods significantly.
- Abstract(参考訳): ソーシャルメディアの急速な発展に伴い、新しいクラスを持つ膨大なビデオが毎日生成され、ストレージとコンピューティングリソースに制限のある古いビデオの知識を維持しながら、新しいクラスを継続的に更新するビデオ分類方法に対する緊急の需要が高まる。
本稿では,この課題をCIVC(textit{Class-Incremental Video Classification)として要約し,それに対応する新しいフレームワークを提案する。
漸進的な学習タスクのサブ領域として、CIVCでは、‘textit{catastrophic forgetting’の課題は避けられない。
より緩和するために、ビデオの特徴を利用する。
まず, 蒸留前の時空間的知識を, 知識伝達過程の全体として扱うのではなく, 蒸留前の時空間的知識を分解する。
第2に,古いクラスやキーフレームの代表的ビデオインスタンスを厳密なストレージ予算内で選択し,保存するための2つの粒度exemplar選択手法を提案する。
提案手法とsomaクラスインクリメンタルラーニング手法を,v2およびkineticsデータセット上でベンチマークし,従来の手法を大きく上回る評価を行った。
関連論文リスト
- MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning
for Multimodal Video Captioning [10.95493493610559]
マルチモーダルビデオキャプション(MCF-VC)のためのクラス増分学習におけるカタストロフィックフォーミングの軽減手法を提案する。
特徴レベルでの旧タスクと新タスクの知識特性をよりよく制約するために,2段階知識蒸留(TsKD)を作成した。
公開データセットMSR-VTTを用いた実験により,提案手法は古いサンプルを再生することなく過去のタスクを忘れることに対して著しく抵抗し,新しいタスクでうまく機能することを示した。
論文 参考訳(メタデータ) (2024-02-27T16:54:08Z) - Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition [62.85802939587308]
本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。
記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
論文 参考訳(メタデータ) (2024-01-11T23:00:24Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。