論文の概要: Learning Audio-Visual Correlations from Variational Cross-Modal
Generation
- arxiv url: http://arxiv.org/abs/2102.03424v1
- Date: Fri, 5 Feb 2021 21:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:18:21.706070
- Title: Learning Audio-Visual Correlations from Variational Cross-Modal
Generation
- Title(参考訳): 変分交叉モーダル生成による視聴覚相関の学習
- Authors: Ye Zhu, Yu Wu, Hugo Latapie, Yi Yang, Yan Yan
- Abstract要約: 我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
- 参考スコア(独自算出の注目度): 35.07257471319274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: People can easily imagine the potential sound while seeing an event. This
natural synchronization between audio and visual signals reveals their
intrinsic correlations. To this end, we propose to learn the audio-visual
correlations from the perspective of cross-modal generation in a
self-supervised manner, the learned correlations can be then readily applied in
multiple downstream tasks such as the audio-visual cross-modal localization and
retrieval. We introduce a novel Variational AutoEncoder (VAE) framework that
consists of Multiple encoders and a Shared decoder (MS-VAE) with an additional
Wasserstein distance constraint to tackle the problem. Extensive experiments
demonstrate that the optimized latent representation of the proposed MS-VAE can
effectively learn the audio-visual correlations and can be readily applied in
multiple audio-visual downstream tasks to achieve competitive performance even
without any given label information during training.
- Abstract(参考訳): 人々はイベントを見ながら、潜在的な音を簡単に想像できます。
この音声と視覚信号の自然な同期は、固有の相関関係を明らかにする。
そこで本稿では,自己教師付き方式でモーダル生成の観点から音声と視覚の相関関係を学習し,その相関関係を音声-視覚間の局所化や検索など,複数の下流タスクに容易に適用することができることを提案する。
本稿では,複数のエンコーダと共有デコーダ(MS-VAE)と,さらにWasserstein距離制約を追加してこの問題に取り組む,新しいVariational Auto Encoder (VAE)フレームワークを紹介する。
提案されたMS-VAEの最適化された潜在表現は、効果的に視聴覚相関を学習し、複数の視聴覚下流タスクに容易に適用でき、トレーニング中に与えられたラベル情報なしでも競争性能を達成できることを実証している。
関連論文リスト
- Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Self-Supervised Audio-Visual Representation Learning with Relaxed
Cross-Modal Temporal Synchronicity [12.995632804090198]
CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。
音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
論文 参考訳(メタデータ) (2021-11-09T20:24:19Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。