Fugu-MT 論文翻訳(概要): Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training

論文の概要: Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training

arxiv url: http://arxiv.org/abs/2309.13942v1
Date: Mon, 25 Sep 2023 08:22:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 16:29:25.250201
Title: Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training
Title（参考訳）: 教師なし映像事前学習の高速化
Authors: Jiangliu Wang, Jianbo Jiao, Yibing Song, Stephen James, Zhan Tong, Chongjian Ge, Pieter Abbeel, Yun-hui Liu
Abstract要約: 本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
参考スコア（独自算出の注目度）: 102.18680666349806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work aims to improve unsupervised audio-visual pre-training. Inspired by the efficacy of data augmentation in visual contrastive learning, we propose a novel speed co-augmentation method that randomly changes the playback speeds of both audio and video data. Despite its simplicity, the speed co-augmentation method possesses two compelling attributes: (1) it increases the diversity of audio-visual pairs and doubles the size of negative pairs, resulting in a significant enhancement in the learned representations, and (2) it changes the strict correlation between audio-visual pairs but introduces a partial relationship between the augmented pairs, which is modeled by our proposed SoftInfoNCE loss to further boost the performance. Experimental results show that the proposed method significantly improves the learned representations when compared to vanilla audio-visual contrastive learning.
Abstract（参考訳）: この研究は教師なしの視聴覚前訓練を改善することを目的としている。視覚的コントラスト学習におけるデータ拡張の有効性に着想を得て,音声とビデオデータの再生速度をランダムに変化させる新しい高速化手法を提案する。 1)音声と視覚のペアの多様性を増大させ、負のペアのサイズを2倍にし、学習表現の大幅な向上を実現し、(2)音声と視覚のペア間の厳密な相関性を変化させると同時に、提案したSoftInfoNCE損失によってモデル化された拡張ペア間の部分的関係を導入し、パフォーマンスをさらに向上させる。実験の結果,提案手法は,バニラ音声・視覚コントラスト学習と比較して,学習表現を著しく改善することがわかった。

関連論文リスト

Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文参考訳（メタデータ） (2025-04-08T07:23:28Z)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文参考訳（メタデータ） (2024-07-15T00:47:56Z)
EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文参考訳（メタデータ） (2024-03-14T15:44:19Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文参考訳（メタデータ） (2023-04-12T04:17:45Z)
Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。 LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文参考訳（メタデータ） (2023-02-22T10:06:37Z)
Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文参考訳（メタデータ） (2022-07-04T04:53:39Z)
The Impact of Spatiotemporal Augmentations on Self-Supervised Audiovisual Representation Learning [2.28438857884398]
ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
論文参考訳（メタデータ） (2021-10-13T23:48:58Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。 AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。