論文の概要: Self-Supervised Audio-Visual Representation Learning with Relaxed
Cross-Modal Temporal Synchronicity
- arxiv url: http://arxiv.org/abs/2111.05329v1
- Date: Tue, 9 Nov 2021 20:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:27:36.354979
- Title: Self-Supervised Audio-Visual Representation Learning with Relaxed
Cross-Modal Temporal Synchronicity
- Title(参考訳): Relaxed Cross-Modal Temporal Synchronicity を用いた自己監督型音声画像表現学習
- Authors: Pritam Sarkar and Ali Etemad
- Abstract要約: CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。
音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
- 参考スコア(独自算出の注目度): 12.995632804090198
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present CrissCross, a self-supervised framework for learning audio-visual
representations. A novel notion is introduced in our framework whereby in
addition to learning the intra-modal and standard 'synchronous' cross-modal
relations, CrissCross also learns 'asynchronous' cross-modal relationships. We
show that by relaxing the temporal synchronicity between the audio and visual
modalities, the network learns strong time-invariant representations. Our
experiments show that strong augmentations for both audio and visual modalities
with relaxation of cross-modal temporal synchronicity optimize performance. To
pretrain our proposed framework, we use 3 different datasets with varying
sizes, Kinetics-Sound, Kinetics-400, and AudioSet. The learned representations
are evaluated on a number of downstream tasks namely action recognition, sound
classification, and retrieval. CrissCross shows state-of-the-art performances
on action recognition (UCF101 and HMDB51) and sound classification (ESC50). The
codes and pretrained models will be made publicly available.
- Abstract(参考訳): 音声視覚表現を学習するための自己教師型フレームワークであるCrissCrossを提案する。
我々のフレームワークでは、モダル内および標準の「同期」相互関係の学習に加えて、CrissCrossは「非同期」相互関係の学習も行っている。
音声と視覚の同期性を緩和することにより,ネットワークは強い時間不変表現を学習することを示す。
実験の結果,時間的相互同期の緩和による音響と視覚の両モードの強化が性能を最適化することがわかった。
提案するフレームワークを事前トレーニングするために、サイズ、速度-音、速度-400、オーディオセットの異なる3つのデータセットを使用する。
学習された表現は、アクション認識、音声分類、検索など、多くの下流タスクで評価される。
CrissCrossは、行動認識(UCF101とHMDB51)と音声分類(ESC50)に関する最先端のパフォーマンスを示す。
コードと事前訓練されたモデルは公開されます。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization [29.53063463863921]
我々は、フレームレベルのクロスモーダル監視に量子化オーディオを利用するエンドツーエンド学習フレームワークSyncVSRを提案する。
音響データと視覚表現を同期するプロジェクション層を統合することで、エンコーダは、非自己回帰的な方法でビデオシーケンスから離散的なオーディオトークンを生成することを学習する。
我々の経験的評価は、最先端の結果を達成するだけでなく、データ使用量を最大9倍に削減できることを示している。
論文 参考訳(メタデータ) (2024-06-18T03:14:22Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。