論文の概要: EnCodecMAE: Leveraging neural codecs for universal audio representation
learning
- arxiv url: http://arxiv.org/abs/2309.07391v1
- Date: Thu, 14 Sep 2023 02:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:27:52.455060
- Title: EnCodecMAE: Leveraging neural codecs for universal audio representation
learning
- Title(参考訳): EnCodecMAE: ユニバーサル音声表現学習のためのニューラルコーデックの活用
- Authors: Leonardo Pepino and Pablo Riera and Luciana Ferrer
- Abstract要約: マスク付きオートエンコーダ(MAE)に基づくユニバーサルオーディオモデルを学習するために、ニューラルオーディオであるEnCodecを用いて個別のターゲットを生成する。
本研究では,EncodecMAEと呼ぶこの手法を,音声,音楽,環境音にまたがる幅広い音声タスクで評価し,先行する音声表現モデルに匹敵する,あるいは優れた性能を実現する。
- 参考スコア(独自算出の注目度): 18.64621482724548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of universal audio representation learning is to obtain foundational
models that can be used for a variety of downstream tasks involving speech,
music or environmental sounds. To approach this problem, methods inspired by
self-supervised models from NLP, like BERT, are often used and adapted to
audio. These models rely on the discrete nature of text, hence adopting this
type of approach for audio processing requires either a change in the learning
objective or mapping the audio signal to a set of discrete classes. In this
work, we explore the use of EnCodec, a neural audio codec, to generate discrete
targets for learning an universal audio model based on a masked autoencoder
(MAE). We evaluate this approach, which we call EncodecMAE, on a wide range of
audio tasks spanning speech, music and environmental sounds, achieving
performances comparable or better than leading audio representation models.
- Abstract(参考訳): 普遍的な音声表現学習の目的は、音声、音楽、環境音を含む様々な下流タスクに使用できる基礎モデルを得ることである。
この問題に対処するために、BERTのようなNLPの自己教師型モデルにインスパイアされた手法がしばしば使われ、オーディオに適応する。
これらのモデルはテキストの離散性に依存しているため、オーディオ処理にこのようなアプローチを採用するには、学習目標の変更や、音声信号を離散クラスにマッピングする必要がある。
本研究では,ニューラルオーディオコーデックであるエンコーダを用いて,マスク付きオートエンコーダ(mae)に基づくユニバーサルオーディオモデル学習のための離散的ターゲットを生成する。
本研究では,EncodecMAEと呼ぶこの手法を,音声,音楽,環境音にまたがる幅広い音声タスクで評価し,先行する音声表現モデルに匹敵する,あるいは優れた性能を実現する。
関連論文リスト
- LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised
Pretraining [47.76088896518772]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio
and Tags [32.456824945999465]
本稿では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構を用いて音声表現を学習する手法を提案する。
以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを多面的に利用することで,より優れた学習音声表現を誘導できることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:13:17Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。