論文の概要: Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
- arxiv url: http://arxiv.org/abs/2104.10955v1
- Date: Thu, 22 Apr 2021 09:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:09:43.235345
- Title: Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
- Title(参考訳): 合成コントラスト学習による音声視覚知識の蒸留
- Authors: Yanbei Chen, Yongqin Xian, A. Sophia Koepke, Ying Shan, Zeynep Akata
- Abstract要約: 我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
- 参考スコア(独自算出の注目度): 51.20935362463473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having access to multi-modal cues (e.g. vision and audio) empowers some
cognitive tasks to be done faster compared to learning from a single modality.
In this work, we propose to transfer knowledge across heterogeneous modalities,
even though these data modalities may not be semantically correlated. Rather
than directly aligning the representations of different modalities, we compose
audio, image, and video representations across modalities to uncover richer
multi-modal knowledge. Our main idea is to learn a compositional embedding that
closes the cross-modal semantic gap and captures the task-relevant semantics,
which facilitates pulling together representations across modalities by
compositional contrastive learning. We establish a new, comprehensive
multi-modal distillation benchmark on three video datasets: UCF101,
ActivityNet, and VGGSound. Moreover, we demonstrate that our model
significantly outperforms a variety of existing knowledge distillation methods
in transferring audio-visual knowledge to improve video representation
learning. Code is released here: https://github.com/yanbeic/CCL.
- Abstract(参考訳): マルチモーダルな手掛かり(例えば、)にアクセスできること
視覚とオーディオ) 認知的なタスクを、単一のモダリティから学ぶよりも速く行うことができる。
本研究では,これらのデータモダリティが意味的に関連付けられなくても,異質なモダリティにまたがる知識の伝達を提案する。
異なるモーダルの表現を直接整列するのではなく、よりリッチなマルチモーダル知識を明らかにするために、モーダル間のオーディオ、画像、ビデオ表現を構成する。
本研究の主な目的は,モーダル間のセマンティックギャップを埋めてタスク関連セマンティクスを捉え,コンストラクショナルコントラスト学習によってモーダル間の表現をまとめることを容易にするコンストラクショナル埋め込みを学習することである。
我々は,UCF101,ActivityNet,VGGSoundの3つのビデオデータセットに対して,新しい総合的マルチモーダル蒸留ベンチマークを構築した。
さらに,本モデルは,映像表現学習を改善するために視聴覚知識の伝達において,既存の様々な知識蒸留法を著しく上回っていることを示す。
https://github.com/yanbeic/ccl.com/。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。