論文の概要: Diffusion Models as Masked Audio-Video Learners
- arxiv url: http://arxiv.org/abs/2310.03937v1
- Date: Thu, 5 Oct 2023 23:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 04:05:17.678982
- Title: Diffusion Models as Masked Audio-Video Learners
- Title(参考訳): マスクオーディオ学習者の拡散モデル
- Authors: Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell
Horton
- Abstract要約: Masked Audio-Video Learningers (MAViL) は最先端のオーディオビデオ事前学習フレームワークとして登場した。
本稿では,拡散モデルとMAViLの相乗効果について検討する。
- 参考スコア(独自算出の注目度): 27.22726553443404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past several years, the synchronization between audio and visual
signals has been leveraged to learn richer audio-visual representations. Aided
by the large availability of unlabeled videos, many unsupervised training
frameworks have demonstrated impressive results in various downstream audio and
video tasks. Recently, Masked Audio-Video Learners (MAViL) has emerged as a
state-of-the-art audio-video pre-training framework. MAViL couples contrastive
learning with masked autoencoding to jointly reconstruct audio spectrograms and
video frames by fusing information from both modalities. In this paper, we
study the potential synergy between diffusion models and MAViL, seeking to
derive mutual benefits from these two frameworks. The incorporation of
diffusion into MAViL, combined with various training efficiency methodologies
that include the utilization of a masking ratio curriculum and adaptive batch
sizing, results in a notable 32% reduction in pre-training Floating-Point
Operations (FLOPS) and an 18% decrease in pre-training wall clock time.
Crucially, this enhanced efficiency does not compromise the model's performance
in downstream audio-classification tasks when compared to MAViL's performance.
- Abstract(参考訳): 過去数年間、音声と視覚信号の同期を利用してよりリッチな視覚表現を学習してきた。
多くの教師なしのトレーニングフレームワークは、ラベルなしのビデオの大量利用を助長し、下流の様々なオーディオとビデオのタスクで印象的な結果を示している。
近年,Masked Audio-Video Learners (MAViL) が最先端のオーディオビデオ事前学習フレームワークとして登場した。
MAViLは、マスク付きオートエンコーディングと対照的な学習を結合し、両方のモダリティからの情報を融合することで、オーディオスペクトログラムとビデオフレームを共同で再構成する。
本稿では,拡散モデルとMAViLの相乗効果について検討し,これら2つのフレームワークの相互利益を導出する。
MAViLへの拡散は、マスキング比のカリキュラムと適応バッチサイズの利用を含む様々な訓練効率の手法と組み合わせて、トレーニング前浮動小数点演算(FLOPS)の顕著な32%の削減と、トレーニング前壁時計時間の18%の削減をもたらす。
重要なことに、この強化された効率は、MAViLの性能と比較して下流オーディオ分類タスクにおけるモデルの性能を損なうことはない。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning [2.28438857884398]
ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。
ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。
サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
論文 参考訳(メタデータ) (2021-10-13T23:48:58Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。