論文の概要: Robust Cross-Modal Knowledge Distillation for Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2304.07775v1
- Date: Sun, 16 Apr 2023 13:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:19:28.772873
- Title: Robust Cross-Modal Knowledge Distillation for Unconstrained Videos
- Title(参考訳): 非拘束ビデオに対するロバストなクロスモーダル知識蒸留
- Authors: Wenke Xia, Xingjian Li, Andong Deng, Haoyi Xiong, Dejing Dou, Di Hu
- Abstract要約: クロスモーダル蒸留は様々なモダリティ間の知識伝達に広く用いられている。
最近の研究は、視覚と音の時間的同期とクロスモーダル蒸留のセマンティック一貫性を強く関連付けている。
教師のモダリティ文脈における無関係ノイズを除去するために,テキストモダリティノイズフィルタ (MNF) モジュールを提案する。
次に,テキストコントラスト・セマンティック(CSC)モジュールを設計し,目的のモダリティに対する有用な知識を適応的に蒸留する。
- 参考スコア(独自算出の注目度): 45.248102767245086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal distillation has been widely used to transfer knowledge across
different modalities, enriching the representation of the target unimodal one.
Recent studies highly relate the temporal synchronization between vision and
sound to the semantic consistency for cross-modal distillation. However, such
semantic consistency from the synchronization is hard to guarantee in
unconstrained videos, due to the irrelevant modality noise and differentiated
semantic correlation. To this end, we first propose a \textit{Modality Noise
Filter} (MNF) module to erase the irrelevant noise in teacher modality with
cross-modal context. After this purification, we then design a
\textit{Contrastive Semantic Calibration} (CSC) module to adaptively distill
useful knowledge for target modality, by referring to the differentiated
sample-wise semantic correlation in a contrastive fashion. Extensive
experiments show that our method could bring a performance boost compared with
other distillation methods in both visual action recognition and video
retrieval task. We also extend to the audio tagging task to prove the
generalization of our method. The source code is available at
\href{https://github.com/GeWu-Lab/cross-modal-distillation}{https://github.com/GeWu-Lab/cross-modal-distillation}.
- Abstract(参考訳): クロスモーダル蒸留は様々なモダリティの知識を伝達するために広く使われており、対象の非モダルの表現を豊かにしている。
最近の研究は、視覚と音の時間的同期とクロスモーダル蒸留のセマンティック一貫性を強く関連付けている。
しかし、同期からのそのような意味的一貫性は、無関係なモダリティノイズと区別された意味的相関のため、制約のないビデオでは保証が難しい。
この目的のために,まず教師モダリティの無関係ノイズをクロスモーダルコンテキストで消去する \textit{modality noise filter} (mnf) モジュールを提案する。
この浄化の後、我々は、異なるサンプル単位のセマンティックな相関を対照的に参照することで、ターゲットのモダリティに有用な知識を適応的に蒸留する「textit{Contrastive Semantic Calibration} (CSC)」モジュールを設計する。
広範な実験により,視覚動作認識と映像検索タスクの両方において,他の蒸留法と比較して性能向上が期待できることがわかった。
また,提案手法の一般化を証明するため,音声タグ処理にも拡張した。
ソースコードは \href{https://github.com/gewu-lab/cross-modal-distillation}{https://github.com/gewu-lab/cross-modal-distillation} で入手できる。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media [34.664388374279596]
マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Fusion Transformer)を提案する。
まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。
そこで我々は, 異質性やノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM) を考案した。
論文 参考訳(メタデータ) (2024-05-09T13:32:26Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge
Distillation and Cross-modal Matching [32.58463449158339]
本稿では,ペアワイズなイベントセンテンスアノテーションを使わずに動画キャプション(dvc)を行う手法を提案する。
適切かつよく解決されたタスクから抽出された知識を採用し、高品質のイベント提案を生成します。
コントラスト損失とサイクル一貫性損失を組み込んで、提案と文のセマンティックマッチングを構築します。
論文 参考訳(メタデータ) (2021-05-18T03:21:37Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。