論文の概要: SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages
- arxiv url: http://arxiv.org/abs/2403.09753v1
- Date: Thu, 14 Mar 2024 12:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:35:10.671366
- Title: SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages
- Title(参考訳): SpokeN-100:異なる言語における音声番号の分類のための言語間ベンチマークデータセット
- Authors: René Groh, Nina Goes, Andreas M. Kist,
- Abstract要約: ベンチマークは、コンパクトなディープラーニングモデルの性能を評価し、向上する上で重要な役割を果たす。
本研究では,音声認識に適した全く人工的なベンチマークデータセットを提案する。
SpokeN-100は、0から99までの話者数で構成され、4つの異なる言語で32の話者によって話される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking plays a pivotal role in assessing and enhancing the performance of compact deep learning models designed for execution on resource-constrained devices, such as microcontrollers. Our study introduces a novel, entirely artificially generated benchmarking dataset tailored for speech recognition, representing a core challenge in the field of tiny deep learning. SpokeN-100 consists of spoken numbers from 0 to 99 spoken by 32 different speakers in four different languages, namely English, Mandarin, German and French, resulting in 12,800 audio samples. We determine auditory features and use UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) as a dimensionality reduction method to show the diversity and richness of the dataset. To highlight the use case of the dataset, we introduce two benchmark tasks: given an audio sample, classify (i) the used language and/or (ii) the spoken number. We optimized state-of-the-art deep neural networks and performed an evolutionary neural architecture search to find tiny architectures optimized for the 32-bit ARM Cortex-M4 nRF52840 microcontroller. Our results represent the first benchmark data achieved for SpokeN-100.
- Abstract(参考訳): ベンチマークは、マイクロコントローラなどのリソース制約のあるデバイス上での実行用に設計された、コンパクトなディープラーニングモデルの性能を評価し、向上する上で重要な役割を担っている。
そこで本研究では,音声認識に適した,完全人工的なベンチマークデータセットを提案する。
SpokeN-100は、英語、マンダリン語、ドイツ語、フランス語の4つの異なる言語で話される0から99までの話し言葉からなり、12,800の音声サンプルが得られた。
音声の特徴を判定し,UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)を次元還元法として用いて,データセットの多様性と豊かさを示す。
データセットのユースケースを強調するために、私たちは2つのベンチマークタスクを紹介した。
(i)使用言語及び/または
(ii) 音声番号。
我々は最先端のディープニューラルネットワークを最適化し、32ビットARM Cortex-M4 nRF52840マイクロコントローラに最適化された小さなアーキテクチャを見つけるために進化的ニューラルネットワーク検索を行った。
我々の結果は、SpokeN-100で達成された最初のベンチマークデータを表している。
関連論文リスト
- Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - The Zero Resource Speech Benchmark 2021: Metrics and baselines for
unsupervised spoken language modeling [23.517751578968344]
ラベルのない生音声信号から言語表現を学習する。
自己教師型コントラスト表現学習(CPC)、クラスタリング(k-means)、言語モデリング(LSTMまたはBERT)による合成ベースラインの結果と解析について述べる。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
論文 参考訳(メタデータ) (2020-11-23T18:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。