論文の概要: Lifelong Audio-video Masked Autoencoder with Forget-robust Localized
Alignments
- arxiv url: http://arxiv.org/abs/2310.08204v1
- Date: Thu, 12 Oct 2023 10:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:49:35.138553
- Title: Lifelong Audio-video Masked Autoencoder with Forget-robust Localized
Alignments
- Title(参考訳): forget-robust局所アライメントを用いた生涯オーディオビデオマスク付きオートエンコーダ
- Authors: Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, and Sung Ju Hwang
- Abstract要約: 音声とビデオのペアを含むビデオストリームから連続的にマルチモーダル表現を学習する,生涯にわたるオーディオビデオマスク付きオートエンコーダを提案する。
トレーニング可能な小型マルチモーダルエンコーダを導入し,音声とビデオのトークンの一致を予測した。
提案手法であるFLAVAは,事前学習作業におけるトレーニング中の音声と映像の複雑な関係をキャプチャする。
- 参考スコア(独自算出の注目度): 61.83340833859382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a lifelong audio-video masked autoencoder that continually learns
the multimodal representations from a video stream containing audio-video
pairs, while its distribution continually shifts over time. Specifically, we
propose two novel ideas to tackle the problem: (1) Localized Alignment: We
introduce a small trainable multimodal encoder that predicts the audio and
video tokens that are well-aligned with each other. This allows the model to
learn only the highly correlated audiovisual patches with accurate multimodal
relationships. (2) Forget-robust multimodal patch selection: We compare the
relative importance of each audio-video patch between the current and past data
pair to mitigate unintended drift of the previously learned audio-video
representations. Our proposed method, FLAVA (Forget-robust Localized
Audio-Video Alignment), therefore, captures the complex relationships between
the audio and video modalities during training on a sequence of pre-training
tasks while alleviating the forgetting of learned audiovisual correlations. Our
experiments validate that FLAVA outperforms the state-of-the-art continual
learning methods on several benchmark datasets under continual audio-video
representation learning scenarios.
- Abstract(参考訳): 本稿では,オーディオとビデオのペアを含むビデオストリームから,マルチモーダル表現を継続的に学習し,その分布は時間とともに変化する。
具体的には,(1)ローカライズアライメント:我々は,相互によく連携した音声と映像のトークンを予測できる,訓練可能な小型マルチモーダルエンコーダを導入する。
これにより、モデルは正確なマルチモーダル関係を持つ高度に相関したオーディオ視覚パッチのみを学習することができる。
2) マルチモダルパッチ選択: 現在と過去のデータペア間で各オーディオビデオパッチの相対的重要性を比較し, 先行学習したオーディオビデオ表現の意図しないドリフトを緩和する。
そこで,提案手法であるFLAVAは,学習したオーディオ視覚相関の忘れを軽減しつつ,事前学習課題の列におけるトレーニング中のオーディオとビデオのモダリティの複雑な関係をキャプチャする。
実験により、FLAVAは、連続的な音声映像表現学習シナリオ下で、複数のベンチマークデータセット上で、最先端の連続学習手法よりも優れていることを確認した。
関連論文リスト
- Missingness-resilient Video-enhanced Multimodal Disfluency Detection [3.3281516035025285]
本稿では,利用可能な映像データと音声を併用したマルチモーダル・ディフルエンシ検出手法を提案する。
私たちのレジリエントなデザインは、推論中にビデオのモダリティが欠落することがある現実世界のシナリオに対応しています。
5つのディフルエンシ検出タスクにわたる実験において、我々の統合マルチモーダルアプローチは、オーディオのみのアンモダル法よりも顕著に優れている。
論文 参考訳(メタデータ) (2024-06-11T05:47:16Z) - Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder [22.836016610542387]
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
論文 参考訳(メタデータ) (2024-04-15T07:05:14Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Recent Advances and Challenges in Deep Audio-Visual Correlation Learning [7.273353828127817]
本稿では,音声と映像の相関関係の学習に使用される最新技術(SOTA)モデルに焦点を当てる。
また、AIマルチメディアに適用された定義とパラダイムのタスクについても論じる。
論文 参考訳(メタデータ) (2022-02-28T10:43:01Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。