論文の概要: Dialect Identification Using Resource-Efficient Fine-Tuning Approaches
- arxiv url: http://arxiv.org/abs/2512.02074v1
- Date: Sun, 30 Nov 2025 14:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.554402
- Title: Dialect Identification Using Resource-Efficient Fine-Tuning Approaches
- Title(参考訳): 資源効率の良い微調整手法を用いた方言の同定
- Authors: Zirui Lin, Haris Gulzar, Monnika Roslianna Busto, Akiko Masaki, Takeharu Eda, Kazuhiro Nakadai,
- Abstract要約: 方言識別(DI)は、同一言語内の異なる方言を音声信号から認識するタスクである。
DIのようなタスクのための音声モデルを微調整するのは、計算コストとメモリ要求の点でコストがかかる。
近年,DI を用いたタスクのための微調整事前学習音声モデルの検討が行われている。
パラメータ効率は高いが、メモリ効率とトレーニング速度は制限されている。
- 参考スコア(独自算出の注目度): 4.96045601558986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dialect Identification (DI) is a task to recognize different dialects within the same language from a speech signal. DI can help to improve the downstream speech related tasks even when speakers have a strong dialect. However, fine-tuning a speech model for tasks like DI is expensive in terms of computation cost and memory requirement. Recent studies have explored fine-tuning pre-trained speech models for tasks like DI using Parameter-Efficient Fine-Tuning (PEFT) methods, which offer parameter efficiency but limited improvement in memory efficiency and training speed. To address these challenges, we explore Memory-Efficient Fine-Tuning (MEFT) methods, originally proposed for language processing, and apply them to the general-purpose pre-trained speech model. We then comprehensively analyze the GPU memory usage and fine-tuning speed based on various MEFT methods. As a case study, we fine-tune the Whisper model to identify six Mandarin subdialects from the KeSpeech dataset, reducing GPU memory usage by up to 73.25% and accelerating training speed by a factor of 2.1, while maintaining accuracy comparable to vanilla fine-tuning and PEFT methods.
- Abstract(参考訳): 方言識別(DI)は、同一言語内の異なる方言を音声信号から認識するタスクである。
DIは、話者が強い方言を持つ場合でも、下流の音声関連タスクを改善するのに役立つ。
しかし、DIのようなタスクのための音声モデルの微調整は、計算コストとメモリ要求の観点からは高価である。
近年,パラメータ効率は高いが,メモリ効率やトレーニング速度は限定的だが,パラメータ効率は高い。
これらの課題に対処するために、もともと言語処理のために提案されていたメモリ効率の良いファインチューニング法(MEFT)を探索し、汎用的な事前学習音声モデルに適用する。
次に、様々なMEFT法に基づいて、GPUメモリの使用状況と微調整速度を包括的に解析する。
ケーススタディでは、Whisperモデルを微調整して、KeSpeechデータセットから6つのmandarinサブダイアレクトを識別し、GPUメモリ使用量を最大73.25%削減し、トレーニング速度を2.1倍に向上させ、バニラ微調整やPEFT手法に匹敵する精度を維持しながら、トレーニング速度を2.1倍に向上させる。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch [15.001750645731162]
大規模自動音声認識(ASR)モデルは、トレーニングプロセス中に大量のパラメータ、大量のデータ、重要な計算資源を必要とする。
本稿では,eMoEモデルの弾性混合モデルを提案する。このモデルを一度だけ訓練し,デプロイ要求に応じて弾性的に拡張することができる。
これら2つの手法を用いて,SpeechIOテストセットのキャラクタエラー率(CER)を4.98%から2.45%に低減し,弾力的展開を実現する。
論文 参考訳(メタデータ) (2024-12-20T07:28:04Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion [44.056153052137674]
本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。
実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-04T19:03:45Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - WaBERT: A Low-resource End-to-end Model for Spoken Language
Understanding and Speech-to-BERT Alignment [2.7505260301752763]
本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルを提案する。
WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。
論文 参考訳(メタデータ) (2022-04-22T02:14:40Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。