論文の概要: XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2211.13929v4
- Date: Wed, 5 Apr 2023 06:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 16:07:44.707533
- Title: XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video
Representation Learning
- Title(参考訳): XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留
- Authors: Pritam Sarkar and Ali Etemad
- Abstract要約: XKDは、教師なしのビデオクリップから意味のある表現を学ぶための、自己ラベル付きフレームワークである。
音声および視覚ストリームから個々の表現を学習するために、クロスモーダルな知識蒸留を行う。
提案手法は,UCF101では8.6%,HMDB51では8.2%,Kineetics-Soundでは13.9%,Kineetics400では15.7%,ビデオアクション分類では8.7%の線形評価を向上する。
- 参考スコア(独自算出の注目度): 25.305949034527202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present XKD, a novel self-supervised framework to learn meaningful
representations from unlabelled video clips. XKD is trained with two pseudo
tasks. First, masked data reconstruction is performed to learn individual
representations from audio and visual streams. Next, self-supervised
cross-modal knowledge distillation is performed between the two modalities
through teacher-student setups to learn complementary information. To identify
the most effective information to transfer and also to tackle the domain gap
between audio and visual modalities which could hinder knowledge transfer, we
introduce a domain alignment and feature refinement strategy for effective
cross-modal knowledge distillation. Lastly, to develop a general-purpose
network capable of handling both audio and visual streams, modality-agnostic
variants of our proposed framework are introduced, which use the same backbone
for both audio and visual modalities. Our proposed cross-modal knowledge
distillation improves linear evaluation top-1 accuracy of video action
classification by 8.6% on UCF101, 8.2% on HMDB51, 13.9% on Kinetics-Sound, and
15.7% on Kinetics400. Additionally, our modality-agnostic variant shows
promising results in developing a general-purpose network capable of learning
both data streams for solving different downstream tasks.
- Abstract(参考訳): ビデオクリップから意味のある表現を学習するための,新しい自己教師型フレームワーク XKD を提案する。
XKDは2つの擬似タスクで訓練される。
まず、マスキングデータ再構成を行い、オーディオおよびビジュアルストリームから個々の表現を学習する。
次に,教師/学生が補完的な情報を学ぶためのセットアップを通じて,2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。
伝達する最も効果的な情報を特定し,また,知識伝達を阻害する音声と視覚の領域間ギャップに取り組むため,効果的なクロスモーダル知識蒸留のためのドメインアライメントと特徴改善戦略を提案する。
最後に,音声と視覚の両方のストリームを処理可能な汎用ネットワークを開発するために,提案するフレームワークのモダリティ非依存な変種を導入し,オーディオと視覚の両方に同じバックボーンを使用する。
提案するクロスモーダル知識蒸留は, ucf101では8.6%, hmdb51では8.2%, キネティクス音では13.9%, キネティクス400では15.7%, ビデオアクション分類の線形評価top-1精度を向上させる。
さらに、モダリティ非依存型は、異なるダウンストリームタスクを解決するために両方のデータストリームを学習できる汎用ネットワークを開発するための有望な結果を示しています。
関連論文リスト
- Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Knowledge Integration Networks for Action Recognition [58.548331848942865]
我々は,アクション認識のためのメインブランチと,人間のパースとシーン認識のための2つの補助ブランチからなる3分岐アーキテクチャを設計する。
補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2段階の知識符号化機構を提案する。
KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
論文 参考訳(メタデータ) (2020-02-18T10:20:30Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。