論文の概要: XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2211.13929v5
- Date: Sun, 24 Dec 2023 10:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:16:57.956153
- Title: XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video
Representation Learning
- Title(参考訳): XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留
- Authors: Pritam Sarkar and Ali Etemad
- Abstract要約: XKDは、教師なしのビデオから意味のある表現を学ぶための自己ラベル付きフレームワークである。
モーダルな知識の蒸留は、モーダルな表現をオーディオやビジュアルストリームから学習するために行われる。
XKDはESC50の音の分類における最先端のパフォーマンスを示し、最高1の精度は9.6.5%である。
- 参考スコア(独自算出の注目度): 35.09411379322014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present XKD, a novel self-supervised framework to learn meaningful
representations from unlabelled videos. XKD is trained with two pseudo
objectives. First, masked data reconstruction is performed to learn
modality-specific representations from audio and visual streams. Next,
self-supervised cross-modal knowledge distillation is performed between the two
modalities through a teacher-student setup to learn complementary information.
We introduce a novel domain alignment strategy to tackle domain discrepancy
between audio and visual modalities enabling effective cross-modal knowledge
distillation. Additionally, to develop a general-purpose network capable of
handling both audio and visual streams, modality-agnostic variants of XKD are
introduced, which use the same pretrained backbone for different audio and
visual tasks. Our proposed cross-modal knowledge distillation improves video
action classification by $8\%$ to $14\%$ on UCF101, HMDB51, and Kinetics400.
Additionally, XKD improves multimodal action classification by $5.5\%$ on
Kinetics-Sound. XKD shows state-of-the-art performance in sound classification
on ESC50, achieving top-1 accuracy of $96.5\%$.
- Abstract(参考訳): ビデオから意味のある表現を学習するための新しい自己教師型フレームワークXKDを提案する。
XKDは2つの擬似目的で訓練されている。
まず、マスキングデータ再構成を行い、オーディオおよびビジュアルストリームからモダリティ固有の表現を学習する。
次に、教師/学生が相補的な情報を学ぶためのセットアップを通じて、2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。
本稿では,音声と視覚の領域的不一致に対処し,効果的なクロスモーダル知識蒸留を可能にする新しいドメインアライメント戦略を提案する。
また、オーディオストリームと視覚ストリームの両方を扱える汎用ネットワークを開発するために、異なるオーディオタスクと視覚タスクに同じ事前学習されたバックボーンを使用するXKDのモダリティに依存しない変種を導入する。
提案するクロスモーダル知識蒸留は, ucf101, hmdb51, kinetics400において, ビデオアクションの分類を8〜14\%向上させる。
さらに、XKD は Kinetics-Sound 上でのマルチモーダルアクション分類を 5.5 % 改善している。
XKDはESC50の音響分類における最先端性能を示し、最高1の精度は96.5 %$である。
関連論文リスト
- Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Knowledge Integration Networks for Action Recognition [58.548331848942865]
我々は,アクション認識のためのメインブランチと,人間のパースとシーン認識のための2つの補助ブランチからなる3分岐アーキテクチャを設計する。
補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2段階の知識符号化機構を提案する。
KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
論文 参考訳(メタデータ) (2020-02-18T10:20:30Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。