論文の概要: Audio-visual Generalized Zero-shot Learning the Easy Way
- arxiv url: http://arxiv.org/abs/2407.13095v1
- Date: Thu, 18 Jul 2024 01:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:03:47.705400
- Title: Audio-visual Generalized Zero-shot Learning the Easy Way
- Title(参考訳): 視覚的一般化型ゼロショット学習の容易な方法
- Authors: Shentong Mo, Pedro Morgado,
- Abstract要約: 本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 20.60905505473906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual generalized zero-shot learning is a rapidly advancing domain that seeks to understand the intricate relations between audio and visual cues within videos. The overarching goal is to leverage insights from seen classes to identify instances from previously unseen ones. Prior approaches primarily utilized synchronized auto-encoders to reconstruct audio-visual attributes, which were informed by cross-attention transformers and projected text embeddings. However, these methods fell short of effectively capturing the intricate relationship between cross-modal features and class-label embeddings inherent in pre-trained language-aligned embeddings. To circumvent these bottlenecks, we introduce a simple yet effective framework for Easy Audio-Visual Generalized Zero-shot Learning, named EZ-AVGZL, that aligns audio-visual embeddings with transformed text representations. It utilizes a single supervised text audio-visual contrastive loss to learn an alignment between audio-visual and textual modalities, moving away from the conventional approach of reconstructing cross-modal features and text embeddings. Our key insight is that while class name embeddings are well aligned with language-based audio-visual features, they don't provide sufficient class separation to be useful for zero-shot learning. To address this, our method leverages differential optimization to transform class embeddings into a more discriminative space while preserving the semantic structure of language representations. We conduct extensive experiments on VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL benchmarks. Our results demonstrate that our EZ-AVGZL achieves state-of-the-art performance in audio-visual generalized zero-shot learning.
- Abstract(参考訳): 音声視覚一般化ゼロショット学習は、ビデオ内の音声と視覚的手がかりの複雑な関係を理解するために急速に進歩している領域である。
全体的な目標は、目に見えないクラスからの洞察を活用して、これまで見えなかったものからインスタンスを識別することだ。
それまでのアプローチでは、主に同期自動エンコーダを使用して、クロスアテンショントランスフォーマーと投影されたテキスト埋め込みによって通知されるオーディオ視覚属性を再構築した。
しかし、これらの手法は、事前訓練された言語対応の埋め込みに固有のクロスモーダル特徴とクラスラベル埋め込みの複雑な関係を効果的に捉えるには至らなかった。
これらのボトルネックを回避するために,EZ-AVGZLという,音声・視覚の埋め込みを変換されたテキスト表現と整合させる,簡易なオーディオ・ビジュアル一般化ゼロショット学習のための,シンプルかつ効果的なフレームワークを導入する。
単一の教師付きテキスト・ビジュアル・コントラッシブ・ロスを利用して、音声・視覚とテキスト・モダリティのアライメントを学習し、従来のクロスモーダルな特徴とテキスト埋め込みの再構築のアプローチから離れる。
私たちの重要な洞察は、クラス名埋め込みは言語ベースのオーディオ視覚機能とよく一致しているが、ゼロショット学習に役立つ十分なクラス分離を提供していないということです。
そこで本手法では, 言語表現のセマンティック構造を保ちながら, クラス埋め込みをより識別的な空間に変換するために, 微分最適化を利用する。
本稿では,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
以上の結果から,EZ-AVGZLは音声・視覚一般化ゼロショット学習における最先端性能を達成できることが示唆された。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Boosting Audio-visual Zero-shot Learning with Large Language Models [32.533844163120875]
我々はKDA(KnowleDge-Augmented Audio-visual Learning)というフレームワークを導入する。
提案したKDAは、一般的な3つのゼロショット学習データセットにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-21T01:18:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。