論文の概要: Hierarchical Augmentation and Distillation for Class Incremental
Audio-Visual Video Recognition
- arxiv url: http://arxiv.org/abs/2401.06287v1
- Date: Thu, 11 Jan 2024 23:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:43:03.084498
- Title: Hierarchical Augmentation and Distillation for Class Incremental
Audio-Visual Video Recognition
- Title(参考訳): クラスインクリメンタル映像認識のための階層的拡張と拡張
- Authors: Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu
- Abstract要約: 本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。
記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
- 参考スコア(独自算出の注目度): 68.66788142494855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual video recognition (AVVR) aims to integrate audio and visual
clues to categorize videos accurately. While existing methods train AVVR models
using provided datasets and achieve satisfactory results, they struggle to
retain historical class knowledge when confronted with new classes in
real-world situations. Currently, there are no dedicated methods for addressing
this problem, so this paper concentrates on exploring Class Incremental
Audio-Visual Video Recognition (CIAVVR). For CIAVVR, since both stored data and
learned model of past classes contain historical knowledge, the core challenge
is how to capture past data knowledge and past model knowledge to prevent
catastrophic forgetting. We introduce Hierarchical Augmentation and
Distillation (HAD), which comprises the Hierarchical Augmentation Module (HAM)
and Hierarchical Distillation Module (HDM) to efficiently utilize the
hierarchical structure of data and models, respectively. Specifically, HAM
implements a novel augmentation strategy, segmental feature augmentation, to
preserve hierarchical model knowledge. Meanwhile, HDM introduces newly designed
hierarchical (video-distribution) logical distillation and hierarchical
(snippet-video) correlative distillation to capture and maintain the
hierarchical intra-sample knowledge of each data and the hierarchical
inter-sample knowledge between data, respectively. Evaluations on four
benchmarks (AVE, AVK-100, AVK-200, and AVK-400) demonstrate that the proposed
HAD effectively captures hierarchical information in both data and models,
resulting in better preservation of historical class knowledge and improved
performance. Furthermore, we provide a theoretical analysis to support the
necessity of the segmental feature augmentation strategy.
- Abstract(参考訳): オーディオ視覚ビデオ認識(AVVR)は、映像を正確に分類するために音声と視覚の手がかりを統合することを目的としている。
既存の方法では、提供されたデータセットを使用してAVVRモデルをトレーニングし、満足な結果を得る一方で、現実の状況で新しいクラスに直面する場合、過去のクラス知識を維持するのに苦労する。
現在,この問題に対処するための専用手法は存在しないため,本論文は,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に重点を置いている。
CIAVVRにとって、記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、重要な課題は過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防止する方法である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
具体的には,階層的モデル知識を維持するため,HAMは新たな拡張戦略であるセグメント的特徴拡張を実装している。
一方、hdmは階層的(ビデオ配信)論理蒸留と階層的(スニッペット・ビデオ)相関蒸留を導入し、各データの階層的内サンプル知識と階層的データ間のサンプル間知識をそれぞれ捕捉・維持する。
AVE, AVK-100, AVK-200, AVK-400の4つのベンチマークによる評価は、提案HADがデータとモデルの両方において階層的な情報を効果的に取得し、歴史的クラス知識の保存が向上し、性能が向上することを示した。
さらに,セグメント的特徴拡張戦略の必要性をサポートするための理論的分析を行う。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - When Video Classification Meets Incremental Classes [12.322018693269952]
本稿では,忘れを忘れるテキスト触媒の課題に対処する枠組みを提案する。
まず, 蒸留前の粒度・時間的知識を緩和する。
第2に,古いクラスとキーフレームの代表的なビデオインスタンスを,厳密なストレージ予算の下で選択・保存する,二重例選択手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T06:12:33Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Few-Shot Incremental Learning with Continually Evolved Classifiers [46.278573301326276]
Few-shot Class-Incremental Learning(FSCIL)は、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムの設計を目指している。
難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。
我々は,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型cif(cec)を提案する。
論文 参考訳(メタデータ) (2021-04-07T10:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。