論文の概要: Generative Model-based Feature Knowledge Distillation for Action
Recognition
- arxiv url: http://arxiv.org/abs/2312.08644v1
- Date: Thu, 14 Dec 2023 03:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:13:02.710387
- Title: Generative Model-based Feature Knowledge Distillation for Action
Recognition
- Title(参考訳): 行動認識のための生成モデルに基づく特徴知識蒸留
- Authors: Guiqin Wang, Peng Zhao, Yanjiang Shi, Cong Zhao, Shusen Yang
- Abstract要約: 本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
- 参考スコア(独自算出の注目度): 11.31068233536815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD), a technique widely employed in computer vision,
has emerged as a de facto standard for improving the performance of small
neural networks. However, prevailing KD-based approaches in video tasks
primarily focus on designing loss functions and fusing cross-modal information.
This overlooks the spatial-temporal feature semantics, resulting in limited
advancements in model compression. Addressing this gap, our paper introduces an
innovative knowledge distillation framework, with the generative model for
training a lightweight student model. In particular, the framework is organized
into two steps: the initial phase is Feature Representation, wherein a
generative model-based attention module is trained to represent feature
semantics; Subsequently, the Generative-based Feature Distillation phase
encompasses both Generative Distillation and Attention Distillation, with the
objective of transferring attention-based feature semantics with the generative
model. The efficacy of our approach is demonstrated through comprehensive
experiments on diverse popular datasets, proving considerable enhancements in
video action recognition task. Moreover, the effectiveness of our proposed
framework is validated in the context of more intricate video action detection
task. Our code is available at https://github.com/aaai-24/Generative-based-KD.
- Abstract(参考訳): コンピュータビジョンで広く使われる技術である知識蒸留(kd)は、小型ニューラルネットワークの性能向上のためのデファクトスタンダードとして登場した。
しかしながら、ビデオタスクにおけるkdベースのアプローチは、主に損失関数の設計とクロスモーダル情報の使用に焦点を当てている。
これは空間的時間的特徴セマンティクスを見落とし、モデル圧縮の限られた進歩をもたらす。
このギャップに対処するため,本稿では,軽量学生モデルの学習のための生成モデルを用いて,革新的な知識蒸留フレームワークを提案する。
最初のフェーズは特徴表現(Feature Representation)であり、生成モデルベースのアテンションモジュールは特徴セマンティクスを表現するために訓練され、その後、生成モデルでアテンションベースのアテンションセマンティクスを転送する目的で、生成モデルベースの特徴蒸留(Generative Distillation)とアテンション蒸留(Attention Distillation)の両方を含む。
提案手法の有効性は,様々な人気データセットの総合的な実験を通じて実証され,映像行動認識タスクの大幅な向上が証明された。
さらに,より複雑な映像行動検出タスクの文脈において,提案手法の有効性を検証した。
私たちのコードはhttps://github.com/aaai-24/生成ベースのkdで利用可能です。
関連論文リスト
- Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。