論文の概要: Enhancing Aviation Communication Transcription: Fine-Tuning Distil-Whisper with LoRA
- arxiv url: http://arxiv.org/abs/2503.22692v1
- Date: Thu, 13 Mar 2025 22:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 07:58:50.017322
- Title: Enhancing Aviation Communication Transcription: Fine-Tuning Distil-Whisper with LoRA
- Title(参考訳): 航空通信記録の強化:LoRAによる微調整ディスティル・ウィスパー
- Authors: Shokoufeh Mirzaei, Jesse Arzate, Yukti Vijay,
- Abstract要約: OpenAIのWhisperは、主要な自動音声認識モデルの1つである。
航空通信の転写のための微調整ウィスパーは、計算的に効率的ではない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transcription of aviation communications has several applications, from assisting air traffic controllers in identifying the accuracy of read-back errors to search and rescue operations. Recent advances in artificial intelligence have provided unprecedented opportunities for improving aviation communication transcription tasks. OpenAI's Whisper is one of the leading automatic speech recognition models. However, fine-tuning Whisper for aviation communication transcription is not computationally efficient. Thus, this paper aims to use a Parameter-Efficient Fine-tuning method called Low-Rank Adaptation to fine-tune a more computationally efficient version of Whisper, distil-Whisper. To perform the fine-tuning, we used the Air Traffic Control Corpus dataset from the Linguistic Data Consortium, which contains approximately 70 hours of controller and pilot transmissions near three major airports in the US. The objective was to reduce the word error rate to enhance accuracy in the transcription of aviation communication. First, starting with an initial set of hyperparameters for LoRA (Alpha = 64 and Rank = 32), we performed a grid search. We applied a 5-fold cross-validation to find the best combination of distil-Whisper hyperparameters. Then, we fine-tuned the model for LoRA hyperparameters, achieving an impressive average word error rate of 3.86% across five folds. This result highlights the model's potential for use in the cockpit.
- Abstract(参考訳): 航空通信の転写は、航空管制官が読み返し誤差の精度を識別し、捜索および救助活動を行うのを支援するなど、いくつかの応用がある。
人工知能の最近の進歩は、航空通信の転写タスクを改善する前例のない機会をもたらした。
OpenAIのWhisperは、主要な自動音声認識モデルの1つである。
しかし、航空通信文字起こしのための微調整ウィスパーは、計算的に効率的ではない。
そこで本稿は,Whisperのより計算効率のよいバージョンであるdistil-Whisperを微調整するために,Low-Rank Adaptationと呼ばれるパラメータ効率の良いファインチューニング手法を提案する。
この微調整を行うために、米国内の3つの主要空港の近くで約70時間の制御とパイロットトランスミッションを含むLinguistic Data ConsortiumのAir Traffic Control Corpusデータセットを使用しました。
目的は,航空通信の文字起こし精度を高めるために,単語誤り率を下げることであった。
まず,LoRAの初期パラメータ(Alpha = 64, Rank = 32)から,格子探索を行った。
ディスティル・ウィスパーハイパーパラメータの最適組み合わせを見つけるために5倍のクロスバリデーションを適用した。
次に,LoRAハイパーパラメータのモデルを微調整し,5倍平均単語誤り率3.86%を達成した。
この結果はコックピットで使用するモデルの可能性を強調している。
関連論文リスト
- Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning [3.4540938725122285]
本稿では,雑音環境や限られた計算資源など,音声コマンド認識の課題に対処する。
我々は、定期や緊急の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。
我々は,BC-SENetモデルにより,シャープ・アンド・エキサイティングおよびタイムフレーム・周波数ワイズ・アンド・エキサイティング技術を用いて,放送残差学習を強化した。
論文 参考訳(メタデータ) (2024-06-26T12:54:19Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers [0.797970449705065]
航空交通管制士(ATCo)の訓練を高速化する新しい仮想シミュレーションパイロットエンジンを提案する。
エンジンはATCo訓練生から音声通信を受け、自動音声認識と理解を行う。
私たちの知る限りでは、オープンソースのATCリソースとAIツールを完全にベースとした最初の作品です。
論文 参考訳(メタデータ) (2023-04-16T17:45:21Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - Call-sign recognition and understanding for noisy air-traffic
transcripts using surveillance information [72.20674534231314]
航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。
コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。
この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。
認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。
論文 参考訳(メタデータ) (2022-04-13T11:30:42Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Contextual Semi-Supervised Learning: An Approach To Leverage
Air-Surveillance and Untranscribed ATC Data in ASR Systems [0.6465251961564605]
飛行機へのコールサインは、atco-パイロット通信の必須部分である。
ASRシステムのエラー率を低減するために,半教師付きトレーニング中に文脈知識を追加する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-08T09:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。