論文の概要: Contrastive Learning of General-Purpose Audio Representations
- arxiv url: http://arxiv.org/abs/2010.10915v1
- Date: Wed, 21 Oct 2020 11:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:10:58.581306
- Title: Contrastive Learning of General-Purpose Audio Representations
- Title(参考訳): 汎用音響表現のコントラスト学習
- Authors: Aaqib Saeed, David Grangier, Neil Zeghidour
- Abstract要約: 音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
- 参考スコア(独自算出の注目度): 33.15189569532155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce COLA, a self-supervised pre-training approach for learning a
general-purpose representation of audio. Our approach is based on contrastive
learning: it learns a representation which assigns high similarity to audio
segments extracted from the same recording while assigning lower similarity to
segments from different recordings. We build on top of recent advances in
contrastive learning for computer vision and reinforcement learning to design a
lightweight, easy-to-implement self-supervised model of audio. We pre-train
embeddings on the large-scale Audioset database and transfer these
representations to 9 diverse classification tasks, including speech, music,
animal sounds, and acoustic scenes. We show that despite its simplicity, our
method significantly outperforms previous self-supervised systems. We
furthermore conduct ablation studies to identify key design choices and release
a library to pre-train and fine-tune COLA models.
- Abstract(参考訳): 音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
本手法はコントラスト学習に基づくもので,同じ録音から抽出した音声セグメントに高い類似度を割り当てる表現を学習し,異なる録音からのセグメントに低い類似度を割り当てる。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩の上に構築され、軽量で容易に実装可能なセルフ教師付きオーディオモデルを設計する。
大規模オーディオセットデータベースへの事前学習を行い,これらの表現を音声,音楽,動物音,音響シーンを含む9つの異なる分類課題に伝達する。
提案手法は単純さに拘わらず,従来の自己監督システムを大幅に上回っている。
さらに、重要な設計選択を特定するためのアブレーション研究を行い、事前訓練および微調整COLAモデルのためのライブラリをリリースする。
関連論文リスト
- AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Deep Clustering For General-Purpose Audio Representations [2.8086459907382224]
本稿では,汎用音声表現学習のための自己教師付き事前学習手法であるDECARを紹介する。
大規模Audiosetデータセットのバランスの取れたサブセットにDECARをプリトレーニングする。
これらの表現を、音声、音楽、動物音、音響シーンを含む9つの下流分類タスクに転送する。
論文 参考訳(メタデータ) (2021-10-17T19:03:51Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - BYOL for Audio: Self-Supervised Learning for General-Purpose Audio
Representation [40.116109908079935]
BYOL-Aは、汎用音声表現を学習するためのBYOLに基づくオーディオ自己監督学習方法です。
正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-11T14:32:33Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。