Fugu-MT 論文翻訳(概要): Fine-tuning Whisper for Pashto ASR: strategies and scale

論文の概要: Fine-tuning Whisper for Pashto ASR: strategies and scale

arxiv url: http://arxiv.org/abs/2604.06507v1
Date: Tue, 07 Apr 2026 22:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.265434
Title: Fine-tuning Whisper for Pashto ASR: strategies and scale
Title（参考訳）: パシュトASRのための微調整ウィスパー:戦略と規模
Authors: Hanif Rahman,
Abstract要約: パシュトーは、コモンボイス最大の言語コレクションの1つであるにも拘わらず、ウィスパーの事前訓練コーパスを欠席している。すべてのウィスパーサイズはアラビア文字、ダリ文字、ウルドゥー文字をパシュト語で出力し、100%以上の単語誤り率を達成する。我々は,CommonVoice Pashto v20のwhisper-baseについて,バニラフル微調整,LoRA(ランク64),フリーズエンコーダ(2/6層),Urdu-to-Pashtoトランスファーの4つの微調整戦略を比較した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pashto is absent from Whisper's pre-training corpus despite being one of CommonVoice's largest language collections, leaving off-the-shelf models unusable: all Whisper sizes output Arabic, Dari, or Urdu script on Pashto audio, achieving word error rates above 100%. We compare four fine-tuning strategies for whisper-base on CommonVoice Pashto v20: vanilla full fine-tuning, LoRA (rank 64), frozen-encoder (2/6 layers), and multistage Urdu-to-Pashto transfer. We extend vanilla fine-tuning to whisper-small and whisper-large-v3-turbo on CommonVoice Pashto v24 (113 hours). Vanilla fine-tuning achieves WER 21.22% on CV20, outperforming LoRA by 33.36 pp, frozen-encoder by 14.76 pp, and Urdu transfer by 44.56 pp. Frozen-encoder fine-tuning degrades performance on whisper-base (6 encoder layers): layer-function separation does not hold at this depth, and freezing removes a third of trainable capacity. Urdu-to-Pashto transfer fails due to an unverified intermediate checkpoint, phonological mismatch, and insufficient training. On CV24, whisper-small achieves WER 24.89% (2.24 pp over whisper-base at 3.3x parameters); whisper-large-v3-turbo achieves 23.37% (a further 1.52 pp). Diminishing returns indicate whisper-small is the practical optimum at 113 hours. Online augmentation provides 7.25 pp WER benefit over matched training. Error analysis identifies word-final suffix confusion (masculine -ay vs. feminine -a) and retroflex substitutions involving the Pashto-unique consonant /ts/ as dominant failure modes. Fine-tuned checkpoints and evaluation scripts are released on HuggingFace.
Abstract（参考訳）: Pashtoは、CommonVoiceの最大の言語コレクションであるにもかかわらず、Whisperの事前学習コーパスに欠落しており、市販モデルは使用不可能である: すべてのWhisperサイズは、Pashtoオーディオ上でアラビア語、Dari、Urduスクリプトを出力し、ワードエラー率を100%以上達成している。我々は,CommonVoice Pashto v20のwhisper-baseについて,バニラフル微調整,LoRA(ランク64),フリーズエンコーダ(2/6層),Urdu-to-Pashtoトランスファーの4つの微調整戦略を比較した。我々は、CommonVoice Pashto v24 (113時間)で、バニラ微調整を、ささやき小さやささやき大さめのv3-turboに拡張する。バニラ微調整はWER 21.22%をCV20で達成し、LoRAを33.36pp、冷凍エンコーダを14.76pp、ウルドゥーを44.56ppで上回った。冷凍エンコーダの微調整は、ウィスパーベース(6エンコーダ層)の性能を低下させる。 Urdu-to-Pashto転送は、未検証の中間チェックポイント、音韻的ミスマッチ、不十分なトレーニングのために失敗する。 CV24では、whisper-smallはWER 24.89%(3.3倍のパラメータでwhisper-baseよりも2.24pp)、whisper-large-v3-turboは23.37%(さらに1.22pp)である。縮小リターンは、ささやき小さめが113時間で実用的最適であることを示している。オンライン強化は、マッチしたトレーニングに対して7.25pp WERの利点を提供する。 Error analysis is identifieds word-final suffix confusion (masculine -ay vs. feminine -a) and retroflex substitutions involved the Pashto-unique consonant /ts/ as dominant failure modes。微調整されたチェックポイントと評価スクリプトは、HuggingFaceでリリースされている。

関連論文リスト

Benchmarking Multilingual Speech Models on Pashto: Zero-Shot ASR, Script Failure, and Cross-Domain Evaluation [0.0]
Pashtoは、約6000～8000万人が話すが、共有公開テストセット上での多言語自動音声認識(ASR)のベンチマークは公開されていない。本稿では,公開Pashtoデータに対する最初の再現可能なマルチモデル評価を行い,ゼロショットASR,スクリプトレベルの故障,微調整モデルのクロスドメイン評価について報告する。
論文参考訳（メタデータ） (2026-04-06T11:23:42Z)
Pashto Common Voice: Building the First Open Speech Corpus for a 60-Million-Speaker Low-Resource Language [0.0]
Pashto Common Voice corpus - Pashtoの最初の大規模かつオープンにライセンスされた音声リソース。 2022年から2025年にかけて行われたコミュニティの取り組みを通じて、コーパスは1.5時間と5人のコントリビュータから147時間、ユニークなスピーカーは1,483人まで成長した。話者参加はCV17とCV18の間で約108倍に増加し、VOA Pashtoの放送キャンペーンと一致した。
論文参考訳（メタデータ） (2026-03-27T22:22:03Z)
StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation [56.49717639074325]
ストリーミング話者匿名化(SA)における感情コンテンツ保存の課題に対処する。音響トークン隠蔽状態におけるフレームレベルの感情蒸留と同一話者からのニュートラル感情発話対を用いた教師付き微調整を提案する。 VoicePrivacy 2024プロトコルでは、49.2%のUAR(感情保存)と5.77%のWER(インテリジェンス)を実現している。
論文参考訳（メタデータ） (2026-03-06T09:30:20Z)
BaldWhisper: Faster Whisper with Head Shearing and Layer Merging [9.991706230252708]
Distill-WhisperはWhisperを40%上回り、21,000時間のスピーチで再訓練する。そこで本研究では,音声からテキストまでの32時間で,Bambaraに着目した新たなプルーニングレシピを提案する。最終モデルはオリジナルの性能の90%を保ち、MacBook Air M1では48%小さく、2.15倍高速である。
論文参考訳（メタデータ） (2025-10-06T17:04:36Z)
A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文参考訳（メタデータ） (2024-09-10T21:45:06Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation [45.29184681700463]
Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。 LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
論文参考訳（メタデータ） (2024-06-14T14:36:54Z)
RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech Translation without Quality Compromise [66.92823764664206]
我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
論文参考訳（メタデータ） (2022-10-16T07:58:25Z)
End-to-end Whispered Speech Recognition with Frequency-weighted Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文参考訳（メタデータ） (2020-05-05T07:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。