論文の概要: Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2404.06309v1
- Date: Tue, 9 Apr 2024 13:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:30:51.143409
- Title: Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models
- Title(参考訳): 事前学習型大規模マルチモーダルモデルを用いた音声視覚一般化ゼロショット学習
- Authors: David Kurzendörfer, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata,
- Abstract要約: 本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 53.48409081555687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual zero-shot learning methods commonly build on features extracted from pre-trained models, e.g. video or audio classification models. However, existing benchmarks predate the popularization of large multi-modal models, such as CLIP and CLAP. In this work, we explore such large pre-trained models to obtain features, i.e. CLIP for visual features, and CLAP for audio features. Furthermore, the CLIP and CLAP text encoders provide class label embeddings which are combined to boost the performance of the system. We propose a simple yet effective model that only relies on feed-forward neural networks, exploiting the strong generalization capabilities of the new audio, visual and textual features. Our framework achieves state-of-the-art performance on VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL with our new features. Code and data available at: https://github.com/dkurzend/ClipClap-GZSL.
- Abstract(参考訳): オーディオ視覚ゼロショット学習法は、訓練済みのモデル、例えばビデオやオーディオ分類モデルから抽出された特徴に基づいて構築される。
しかし、既存のベンチマークはCLIPやCLAPのような大規模なマルチモーダルモデルの普及よりも前である。
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
さらに、CLIPとCLAPテキストエンコーダは、システムの性能を高めるために、クラスラベルの埋め込みを提供する。
我々は、フィードフォワードニューラルネットワークのみに依存し、新しい音声・視覚・テキスト機能の強力な一般化機能を活用する、単純で効果的なモデルを提案する。
我々のフレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLの最先端性能を実現する。
コードとデータは、https://github.com/dkurzend/ClipClap-GZSL.comで公開されている。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-01-28T13:26:47Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。