論文の概要: BEATs: Audio Pre-Training with Acoustic Tokenizers
- arxiv url: http://arxiv.org/abs/2212.09058v1
- Date: Sun, 18 Dec 2022 10:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:33:52.083973
- Title: BEATs: Audio Pre-Training with Acoustic Tokenizers
- Title(参考訳): BEATs:音響トケナイザによるオーディオ事前学習
- Authors: Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo
Chen, Furu Wei
- Abstract要約: 自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
- 参考スコア(独自算出の注目度): 77.8510930885778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive growth of self-supervised learning (SSL) has been witnessed in
language, vision, speech, and audio domains over the past few years. While
discrete label prediction is widely adopted for other modalities, the
state-of-the-art audio SSL models still employ reconstruction loss for
pre-training. Compared with reconstruction loss, semantic-rich discrete label
prediction encourages the SSL model to abstract the high-level audio semantics
and discard the redundant details as in human perception. However, a
semantic-rich acoustic tokenizer for general audio pre-training is usually not
straightforward to obtain, due to the continuous property of audio and
unavailable phoneme sequences like speech. To tackle this challenge, we propose
BEATs, an iterative audio pre-training framework to learn Bidirectional Encoder
representation from Audio Transformers, where an acoustic tokenizer and an
audio SSL model are optimized by iterations. In the first iteration, we use
random projection as the acoustic tokenizer to train an audio SSL model in a
mask and label prediction manner. Then, we train an acoustic tokenizer for the
next iteration by distilling the semantic knowledge from the pre-trained or
fine-tuned audio SSL model. The iteration is repeated with the hope of mutual
promotion of the acoustic tokenizer and audio SSL model. The experimental
results demonstrate our acoustic tokenizers can generate discrete labels with
rich audio semantics and our audio SSL models achieve state-of-the-art results
across various audio classification benchmarks, even outperforming previous
models that use more training data and model parameters significantly.
Specifically, we set a new state-of-the-art mAP 50.6% on AudioSet-2M for
audio-only models without using any external data, and 98.1% accuracy on
ESC-50. The code and pre-trained models are available at https://aka.ms/beats.
- Abstract(参考訳): 自己教師型学習(SSL)の大規模な成長は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで見られてきた。
離散ラベル予測は他のモダリティにも広く採用されているが、最先端のオーディオSSLモデルは、まだ事前トレーニングのために再構成損失を使用している。
リコンストラクション損失と比較して、セマンティックリッチな離散ラベル予測は、SSLモデルを高レベルの音声セマンティクスを抽象化し、人間の知覚のように冗長な詳細を破棄することを奨励する。
しかし、一般的な音声事前学習のための意味豊富な音響トークンは、音声や音声のような使用できない音素列の連続性のため、通常は簡単には得られない。
この課題に対処するために,音声変換器から双方向エンコーダ表現を学習する反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
次に、事前学習または微調整されたオーディオsslモデルから意味知識を抽出して、次のイテレーションのための音響トークン化器を訓練する。
この反復は音響トークン化器と音声sslモデルの相互促進を期待して繰り返される。
実験結果から,音響トークン化器は,音声セマンティクスに富んだ離散ラベルを生成でき,オーディオsslモデルは,様々な音響分類ベンチマークにおいて最先端の結果を得ることができた。
具体的には,外部データを使用しないオーディオ専用モデルに対して,オーディオセット2mの50.6%,esc-50の98.1%の精度を新たに設定した。
コードと事前訓練されたモデルはhttps://aka.ms/beats.comで入手できる。
関連論文リスト
- How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。