Fugu-MT 論文翻訳(概要): EnCodecMAE: Leveraging neural codecs for universal audio representation learning

論文の概要: EnCodecMAE: Leveraging neural codecs for universal audio representation learning

arxiv url: http://arxiv.org/abs/2309.07391v1
Date: Thu, 14 Sep 2023 02:21:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 16:27:52.455060
Title: EnCodecMAE: Leveraging neural codecs for universal audio representation learning
Title（参考訳）: EnCodecMAE: ユニバーサル音声表現学習のためのニューラルコーデックの活用
Authors: Leonardo Pepino and Pablo Riera and Luciana Ferrer
Abstract要約: マスク付きオートエンコーダ(MAE)に基づくユニバーサルオーディオモデルを学習するために、ニューラルオーディオであるEnCodecを用いて個別のターゲットを生成する。本研究では,EncodecMAEと呼ぶこの手法を,音声,音楽,環境音にまたがる幅広い音声タスクで評価し,先行する音声表現モデルに匹敵する,あるいは優れた性能を実現する。
参考スコア（独自算出の注目度）: 18.64621482724548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of universal audio representation learning is to obtain foundational models that can be used for a variety of downstream tasks involving speech, music or environmental sounds. To approach this problem, methods inspired by self-supervised models from NLP, like BERT, are often used and adapted to audio. These models rely on the discrete nature of text, hence adopting this type of approach for audio processing requires either a change in the learning objective or mapping the audio signal to a set of discrete classes. In this work, we explore the use of EnCodec, a neural audio codec, to generate discrete targets for learning an universal audio model based on a masked autoencoder (MAE). We evaluate this approach, which we call EncodecMAE, on a wide range of audio tasks spanning speech, music and environmental sounds, achieving performances comparable or better than leading audio representation models.
Abstract（参考訳）: 普遍的な音声表現学習の目的は、音声、音楽、環境音を含む様々な下流タスクに使用できる基礎モデルを得ることである。この問題に対処するために、BERTのようなNLPの自己教師型モデルにインスパイアされた手法がしばしば使われ、オーディオに適応する。これらのモデルはテキストの離散性に依存しているため、オーディオ処理にこのようなアプローチを採用するには、学習目標の変更や、音声信号を離散クラスにマッピングする必要がある。本研究では,ニューラルオーディオコーデックであるエンコーダを用いて,マスク付きオートエンコーダ(mae)に基づくユニバーサルオーディオモデル学習のための離散的ターゲットを生成する。本研究では,EncodecMAEと呼ぶこの手法を,音声,音楽,環境音にまたがる幅広い音声タスクで評価し,先行する音声表現モデルに匹敵する,あるいは優れた性能を実現する。

関連論文リスト

SpeechForensics: Audio-Visual Speech Representation Learning for Face Forgery Detection [13.258458244131448]
顔の偽造ビデオの検出は、デジタル鑑識の分野では、いまだに深刻な課題だ。我々は,自己教師付きマスキング予測タスクを用いて,実映像における音声・視覚音声の正確な表現を学習する。提案手法は, クロスデータセットの一般化とロバストネスの観点から, 最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-08-13T16:09:36Z)
USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。 USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文参考訳（メタデータ） (2025-06-23T17:02:00Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
本稿では,ベクトル量子化マスク付きオートエンコーダ(MAE)であるVQ-MAE-AVモデルを提案する。音声と視覚のモダリティを融合させ,音声視覚音声系列の局所的およびグローバルな表現を学習するために,自己・横断的機構を持つマルチモーダルMAEを提案する。実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
論文参考訳（メタデータ） (2023-05-05T14:19:46Z)
Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文参考訳（メタデータ） (2022-12-09T17:34:53Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags [32.456824945999465]
本稿では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構を用いて音声表現を学習する手法を提案する。以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを多面的に利用することで,より優れた学習音声表現を誘導できることが示唆された。
論文参考訳（メタデータ） (2020-10-27T10:13:17Z)
Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文参考訳（メタデータ） (2020-08-10T16:18:01Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)
Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文参考訳（メタデータ） (2020-01-13T18:56:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。