論文の概要: G-IFT: A Gated Linear Unit adapter with Iterative Fine-Tuning for Low-Resource Children's Speaker Verification
- arxiv url: http://arxiv.org/abs/2508.07836v1
- Date: Mon, 11 Aug 2025 10:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.048438
- Title: G-IFT: A Gated Linear Unit adapter with Iterative Fine-Tuning for Low-Resource Children's Speaker Verification
- Title(参考訳): G-IFT:低音源児話者認証のための反復ファインチューニング付きゲート付きリニアユニットアダプタ
- Authors: Vishwas M. Shetty, Jiusi Zheng, Abeer Alwan,
- Abstract要約: 反復ファインチューニング(G-IFT)を用いたGated Linear Unit Adapterという,革新的なフレームワークを提案する。
本稿では,高リソースの成人音声領域と低リソースの児童音声領域との知識伝達効率を高めるために,反復ファインタニング(G-IFT)を用いたGated Linear Unitアダプタを提案する。
- 参考スコア(独自算出の注目度): 18.19235178193197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker Verification (SV) systems trained on adults speech often underperform on children's SV due to the acoustic mismatch, and limited children speech data makes fine-tuning not very effective. In this paper, we propose an innovative framework, a Gated Linear Unit adapter with Iterative Fine-Tuning (G-IFT), to enhance knowledge transfer efficiency between the high-resource adults speech domain and the low-resource children's speech domain. In this framework, a Gated Linear Unit adapter is first inserted between the pre-trained speaker embedding model and the classifier. Then the classifier, adapter, and pre-trained speaker embedding model are optimized sequentially in an iterative way. This framework is agnostic to the type of the underlying architecture of the SV system. Our experiments on ECAPA-TDNN, ResNet, and X-vector architectures using the OGI and MyST datasets demonstrate that the G-IFT framework yields consistent reductions in Equal Error Rates compared to baseline methods.
- Abstract(参考訳): 話者検証(SV)システムは, 音響的ミスマッチにより, 子どものSVに過小評価されることが多く, 幼児の音声データに制限があるため, 微調整はあまり効果がない。
本稿では,高リソースの成人音声領域と低リソースの児童音声領域との知識伝達効率を高めるために,G-IFT(Iterative Fine-Tuning)を用いたGated Linear Unit Adapterを提案する。
このフレームワークでは、事前訓練された話者埋め込みモデルと分類器との間に最初にGated Linear Unitアダプタを挿入する。
そして、分類器、アダプタ、および事前訓練された話者埋め込みモデルを逐次、反復的に最適化する。
このフレームワークは、SVシステムの基盤となるアーキテクチャのタイプに依存しない。
OGI と MyST のデータセットを用いた ECAPA-TDNN, ResNet および X-vector アーキテクチャに関する実験により,G-IFT フレームワークはベースライン法と比較して誤差率を一定に低減することを示した。
関連論文リスト
- DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Relational Teacher Student Learning with Neural Label Embedding for
Device Adaptation in Acoustic Scene Classification [49.0621360050418]
音響シーン分類におけるデバイスミスマッチ問題に対処するドメイン適応フレームワークを提案する。
音響シーンのクラス間の構造的関係を考慮し、本提案手法は本質的にデバイスに依存しない関係を捉える。
トレーニング段階では、転写可能な知識はソースドメインからNLEに凝縮される。
適応段階では、ペアのソースターゲットデータを使用しずに適応対象モデルを学習するために、新しいRTSL戦略を採用する。
論文 参考訳(メタデータ) (2020-07-31T23:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。