論文の概要: Wavelet Scattering Transform for Improving Generalization in
Low-Resourced Spoken Language Identification
- arxiv url: http://arxiv.org/abs/2310.00602v2
- Date: Tue, 3 Oct 2023 08:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:08:48.725296
- Title: Wavelet Scattering Transform for Improving Generalization in
Low-Resourced Spoken Language Identification
- Title(参考訳): ウェーブレット散乱変換による低語源話者識別の一般化
- Authors: Spandan Dey, Premjeet Singh, Goutam Saha
- Abstract要約: We developed fused ECAPA-TDNN based LID systems with different set of WST hyper- parameters to improve generalization for unknown data。
MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。
- 参考スコア(独自算出の注目度): 4.2603120588176635
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commonly used features in spoken language identification (LID), such as
mel-spectrogram or MFCC, lose high-frequency information due to windowing. The
loss further increases for longer temporal contexts. To improve generalization
of the low-resourced LID systems, we investigate an alternate feature
representation, wavelet scattering transform (WST), that compensates for the
shortcomings. To our knowledge, WST is not explored earlier in LID tasks. We
first optimize WST features for multiple South Asian LID corpora. We show that
LID requires low octave resolution and frequency-scattering is not useful.
Further, cross-corpora evaluations show that the optimal WST hyper-parameters
depend on both train and test corpora. Hence, we develop fused ECAPA-TDNN based
LID systems with different sets of WST hyper-parameters to improve
generalization for unknown data. Compared to MFCC, EER is reduced upto 14.05%
and 6.40% for same-corpora and blind VoxLingua107 evaluations, respectively.
- Abstract(参考訳): メル・スペクトログラム (mel-spectrogram) やMFCC (MFCC) などの音声言語識別 (LID) でよく使われる機能は、ウィンドウリングによって高周波情報を失う。
長い時間的文脈では損失はさらに増加する。
低リソースのLIDシステムの一般化を改善するため、欠点を補う代替特徴表現であるウェーブレット散乱変換(WST)について検討する。
我々の知る限り、WST は LID タスクでは以前から検討されていない。
我々はまず,複数の東南アジアのLIDコーパスに対してWST機能を最適化する。
LIDは低オクターブ分解能であり,周波数散乱は有用ではない。
さらに, クロスコーパス評価の結果, 最適WSTハイパーパラメータは列車と試験コーパスの両方に依存することがわかった。
そこで我々は,未知データに対する一般化を改善するために,異なる WST パラメータの集合を持つ融合 ECAPA-TDNN ベースの LID システムを開発した。
MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。
関連論文リスト
- Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis [9.090504201460817]
ヒストホイルスライド画像(英語版)(WSI)解析は、医師の日常業務における臨床がん診断のゴールドスタンダードとなっている。
従来の手法では、スライドレベルラベルのみを与えられたスライドレベルの予測を可能にするために、マルチパスラーニングが一般的であった。
大規模なWSIにおける長いシーケンスの計算複雑性を軽減するため、HIPTではリージョンスライシング、TransMILでは完全な自己アテンションの近似を採用している。
論文 参考訳(メタデータ) (2024-10-18T06:12:36Z) - Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation [14.410024368174872]
本稿では,同時音声翻訳のためのラベル同期型ニューラルトランスデューサLS-Transducer-SSTを提案する。
LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。
Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2024-06-06T22:39:43Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文 参考訳(メタデータ) (2021-04-15T17:51:03Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。