論文の概要: Wavelet Scattering Transform for Improving Generalization in
Low-Resourced Spoken Language Identification
- arxiv url: http://arxiv.org/abs/2310.00602v2
- Date: Tue, 3 Oct 2023 08:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:08:48.725296
- Title: Wavelet Scattering Transform for Improving Generalization in
Low-Resourced Spoken Language Identification
- Title(参考訳): ウェーブレット散乱変換による低語源話者識別の一般化
- Authors: Spandan Dey, Premjeet Singh, Goutam Saha
- Abstract要約: We developed fused ECAPA-TDNN based LID systems with different set of WST hyper- parameters to improve generalization for unknown data。
MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。
- 参考スコア(独自算出の注目度): 4.2603120588176635
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commonly used features in spoken language identification (LID), such as
mel-spectrogram or MFCC, lose high-frequency information due to windowing. The
loss further increases for longer temporal contexts. To improve generalization
of the low-resourced LID systems, we investigate an alternate feature
representation, wavelet scattering transform (WST), that compensates for the
shortcomings. To our knowledge, WST is not explored earlier in LID tasks. We
first optimize WST features for multiple South Asian LID corpora. We show that
LID requires low octave resolution and frequency-scattering is not useful.
Further, cross-corpora evaluations show that the optimal WST hyper-parameters
depend on both train and test corpora. Hence, we develop fused ECAPA-TDNN based
LID systems with different sets of WST hyper-parameters to improve
generalization for unknown data. Compared to MFCC, EER is reduced upto 14.05%
and 6.40% for same-corpora and blind VoxLingua107 evaluations, respectively.
- Abstract(参考訳): メル・スペクトログラム (mel-spectrogram) やMFCC (MFCC) などの音声言語識別 (LID) でよく使われる機能は、ウィンドウリングによって高周波情報を失う。
長い時間的文脈では損失はさらに増加する。
低リソースのLIDシステムの一般化を改善するため、欠点を補う代替特徴表現であるウェーブレット散乱変換(WST)について検討する。
我々の知る限り、WST は LID タスクでは以前から検討されていない。
我々はまず,複数の東南アジアのLIDコーパスに対してWST機能を最適化する。
LIDは低オクターブ分解能であり,周波数散乱は有用ではない。
さらに, クロスコーパス評価の結果, 最適WSTハイパーパラメータは列車と試験コーパスの両方に依存することがわかった。
そこで我々は,未知データに対する一般化を改善するために,異なる WST パラメータの集合を持つ融合 ECAPA-TDNN ベースの LID システムを開発した。
MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文 参考訳(メタデータ) (2021-04-15T17:51:03Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。