論文の概要: Learning Audio Representations with MLPs
- arxiv url: http://arxiv.org/abs/2203.08490v1
- Date: Wed, 16 Mar 2022 09:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 00:35:06.208392
- Title: Learning Audio Representations with MLPs
- Title(参考訳): MLPを用いた音声表現の学習
- Authors: Mashrur M. Morshed, Ahmad Omar Ahsan, Hasan Mahmud, Md. Kamrul Hasan
- Abstract要約: 本稿では,タイムスタンプとシーンレベルのオーディオ埋め込みを効率よく学習する手法を提案する。
逐次的に積み重ねられたゲートブロックからなるエンコーダを用いて、2次元MFCCを入力として受け入れる。
また、タイムスタンプ埋め込みからシーンレベルの埋め込みを計算するための簡単な時間的アルゴリズムも提供する。
- 参考スコア(独自算出の注目度): 2.0418546897282095
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we propose an efficient MLP-based approach for learning audio
representations, namely timestamp and scene-level audio embeddings. We use an
encoder consisting of sequentially stacked gated MLP blocks, which accept 2D
MFCCs as inputs. In addition, we also provide a simple temporal
interpolation-based algorithm for computing scene-level embeddings from
timestamp embeddings. The audio representations generated by our method are
evaluated across a diverse set of benchmarks at the Holistic Evaluation of
Audio Representations (HEAR) challenge, hosted at the NeurIPS 2021 competition
track. We achieved first place on the Speech Commands (full), Speech Commands
(5 hours), and the Mridingham Tonic benchmarks. Furthermore, our approach is
also the most resource-efficient among all the submitted methods, in terms of
both the number of model parameters and the time required to compute
embeddings.
- Abstract(参考訳): 本稿では,タイムスタンプやシーンレベルのオーディオ埋め込みなどの音声表現を効率よく学習する手法を提案する。
我々は、2次元MFCCを入力として受け入れる逐次的に積み重ねられたゲート型MLPブロックからなるエンコーダを使用する。
さらに,タイムスタンプ埋め込みからシーンレベルの埋め込みを計算するための簡易な時間補間に基づくアルゴリズムも提供する。
提案手法により生成された音声表現は,NeurIPS 2021コンペティショントラックで開催されているHEARチャレンジにおいて,様々なベンチマークで評価される。
我々は、Speech Commands(フル)、Speech Commands(5時間)、Moridingham Tonicベンチマークで1位を獲得しました。
さらに,本手法は,モデルパラメータの数と埋め込み計算に要する時間の両方の観点から,提案手法の中で最も資源効率が高い。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual
speech separation [21.278294846228935]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。