Fugu-MT 論文翻訳(概要): Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification

論文の概要: Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification

arxiv url: http://arxiv.org/abs/2310.00602v2
Date: Tue, 3 Oct 2023 08:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 03:08:48.725296
Title: Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification
Title（参考訳）: ウェーブレット散乱変換による低語源話者識別の一般化
Authors: Spandan Dey, Premjeet Singh, Goutam Saha
Abstract要約: We developed fused ECAPA-TDNN based LID systems with different set of WST hyper- parameters to improve generalization for unknown data。 MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。
参考スコア（独自算出の注目度）: 4.2603120588176635
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Commonly used features in spoken language identification (LID), such as mel-spectrogram or MFCC, lose high-frequency information due to windowing. The loss further increases for longer temporal contexts. To improve generalization of the low-resourced LID systems, we investigate an alternate feature representation, wavelet scattering transform (WST), that compensates for the shortcomings. To our knowledge, WST is not explored earlier in LID tasks. We first optimize WST features for multiple South Asian LID corpora. We show that LID requires low octave resolution and frequency-scattering is not useful. Further, cross-corpora evaluations show that the optimal WST hyper-parameters depend on both train and test corpora. Hence, we develop fused ECAPA-TDNN based LID systems with different sets of WST hyper-parameters to improve generalization for unknown data. Compared to MFCC, EER is reduced upto 14.05% and 6.40% for same-corpora and blind VoxLingua107 evaluations, respectively.
Abstract（参考訳）: メル・スペクトログラム (mel-spectrogram) やMFCC (MFCC) などの音声言語識別 (LID) でよく使われる機能は、ウィンドウリングによって高周波情報を失う。長い時間的文脈では損失はさらに増加する。低リソースのLIDシステムの一般化を改善するため、欠点を補う代替特徴表現であるウェーブレット散乱変換(WST)について検討する。我々の知る限り、WST は LID タスクでは以前から検討されていない。我々はまず,複数の東南アジアのLIDコーパスに対してWST機能を最適化する。 LIDは低オクターブ分解能であり,周波数散乱は有用ではない。さらに, クロスコーパス評価の結果, 最適WSTハイパーパラメータは列車と試験コーパスの両方に依存することがわかった。そこで我々は,未知データに対する一般化を改善するために,異なる WST パラメータの集合を持つ融合 ECAPA-TDNN ベースの LID システムを開発した。 MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。

関連論文リスト

Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。 NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。 ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文参考訳（メタデータ） (2025-07-26T07:44:04Z)
Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models [44.27801276966812]
本稿では、視覚言語連続学習(VLCL)のためのゼロ次最適化(ZO)の体系的探索を開拓する。まず,VLCLにおけるNuive full-ZO導入の不適合性について検討した。我々は、浅層と深層表現の不均一な学習力学を活かして、ZOとFOをネットワーク層にインターリーブする階層最適化パラダイムを開発した。
論文参考訳（メタデータ） (2025-06-14T08:59:19Z)
STAF: Sinusoidal Trainable Activation Functions for Implicit Neural Representation [7.2888019138115245]
Inlicit Neural Representations (INR) は、連続的な信号をモデリングするための強力なフレームワークとして登場した。 ReLUベースのネットワークのスペクトルバイアスは、十分に確立された制限であり、ターゲット信号の微細な詳細を捕捉する能力を制限する。 Sinusoidal Trainable Function Activation (STAF)について紹介する。 STAFは本質的に周波数成分を変調し、自己適応型スペクトル学習を可能にする。
論文参考訳（メタデータ） (2025-02-02T18:29:33Z)
Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis [9.090504201460817]
ヒストホイルスライド画像(英語版)(WSI)解析は、医師の日常業務における臨床がん診断のゴールドスタンダードとなっている。従来の手法では、スライドレベルラベルのみを与えられたスライドレベルの予測を可能にするために、マルチパスラーニングが一般的であった。大規模なWSIにおける長いシーケンスの計算複雑性を軽減するため、HIPTではリージョンスライシング、TransMILでは完全な自己アテンションの近似を採用している。
論文参考訳（メタデータ） (2024-10-18T06:12:36Z)
Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation [14.410024368174872]
本稿では,同時音声翻訳のためのラベル同期型ニューラルトランスデューサLS-Transducer-SSTを提案する。 LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。 Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
論文参考訳（メタデータ） (2024-06-06T22:39:43Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。 Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。 DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文参考訳（メタデータ） (2023-12-17T20:42:43Z)
Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-26T05:31:23Z)
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文参考訳（メタデータ） (2023-05-18T16:49:46Z)
MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文参考訳（メタデータ） (2022-11-02T23:34:12Z)
STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。 Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文参考訳（メタデータ） (2022-06-29T00:36:34Z)
Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。 Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文参考訳（メタデータ） (2021-04-15T17:51:03Z)
Speaker Representation Learning using Global Context Guided Channel and Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文参考訳（メタデータ） (2020-09-02T01:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。