論文の概要: Analyzing and Fine-Tuning Whisper Models for Multilingual Pilot Speech Transcription in the Cockpit
- arxiv url: http://arxiv.org/abs/2506.21990v1
- Date: Fri, 27 Jun 2025 07:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.127311
- Title: Analyzing and Fine-Tuning Whisper Models for Multilingual Pilot Speech Transcription in the Cockpit
- Title(参考訳): コックピットにおける多言語音声書き起こしのためのWhisperモデルの解析と微調整
- Authors: Kartheek Kumar Reddy Nareddy, Sarah Ternus, Julia Niebling,
- Abstract要約: 本稿では,Whisperモデルを用いたコックピット会話の転写精度を検証し,改善する。
書き起こしを洗練し、単語誤り率(WER)を改善するために、複数の正規化方式を提案する。
次に、低ランク適応(LoRA)を用いた性能効率の微調整を利用して、ASR性能を向上させるために微調整を用いる。
- 参考スコア(独自算出の注目度): 2.2871867623460216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The developments in transformer encoder-decoder architectures have led to significant breakthroughs in machine translation, Automatic Speech Recognition (ASR), and instruction-based chat machines, among other applications. The pre-trained models were trained on vast amounts of generic data over a few epochs (fewer than five in most cases), resulting in their strong generalization capabilities. Nevertheless, the performance of these models does suffer when applied to niche domains like transcribing pilot speech in the cockpit, which involves a lot of specific vocabulary and multilingual conversations. This paper investigates and improves the transcription accuracy of cockpit conversations with Whisper models. We have collected around 85 minutes of cockpit simulator recordings and 130 minutes of interview recordings with pilots and manually labeled them. The speakers are middle aged men speaking both German and English. To improve the accuracy of transcriptions, we propose multiple normalization schemes to refine the transcripts and improve Word Error Rate (WER). We then employ fine-tuning to enhance ASR performance, utilizing performance-efficient fine-tuning with Low-Rank Adaptation (LoRA). Hereby, WER decreased from 68.49 \% (pretrained whisper Large model without normalization baseline) to 26.26\% (finetuned whisper Large model with the proposed normalization scheme).
- Abstract(参考訳): トランスフォーマーエンコーダ・デコーダアーキテクチャの開発は、機械翻訳、自動音声認識(ASR)、命令ベースのチャットマシンなどにおいて大きなブレークスルーをもたらした。
事前訓練されたモデルは、いくつかのエポック(ほとんどの場合5つ以下)で膨大な総称データに基づいて訓練され、その結果、その強力な一般化能力が得られた。
それでもこれらのモデルの性能は、コックピットのパイロットスピーチの書き起こしのようなニッチなドメインに適用され、多くの特定の語彙と多言語会話が伴う。
本稿では,Whisperモデルを用いたコックピット会話の転写精度を検証し,改善する。
我々は,コックピットシミュレータの録音を85分,パイロットとのインタビュー記録を130分程度収集し,手動でラベル付けした。
スピーカーはドイツ語と英語の両方を話す中年男性です。
書き起こしの精度を向上させるため,複数の正規化手法を提案する。
そこで我々は,Lo-Rank Adaptation (LoRA) を用いた性能効率の高いファインチューニングを用いて,ASRの性能向上を図る。
これにより、WERは68.49 \%(正規化ベースラインなしの事前トレーニングされたウィスパー大モデル)から26.26\%(正規化方式による微調整されたウィスパー大モデル)に減少した。
関連論文リスト
- Enhancing Aviation Communication Transcription: Fine-Tuning Distil-Whisper with LoRA [0.0]
OpenAIのWhisperは、主要な自動音声認識モデルの1つである。
航空通信の転写のための微調整ウィスパーは、計算的に効率的ではない。
論文 参考訳(メタデータ) (2025-03-13T22:12:45Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。