論文の概要: Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model
- arxiv url: http://arxiv.org/abs/2410.18363v1
- Date: Thu, 24 Oct 2024 01:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:42:41.030706
- Title: Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model
- Title(参考訳): ウィスパーモデルのきめ細かな調整を伴わずに、ドメイン固有のカスタム語彙音声書き起こしを改善するための文脈的バイアス
- Authors: Vishakha Lall, Yisi Liu,
- Abstract要約: OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: OpenAI's Whisper Automated Speech Recognition model excels in generalizing across diverse datasets and domains. However, this broad adaptability can lead to diminished performance in tasks requiring recognition of specific vocabularies. Addressing this challenge typically involves fine-tuning the model, which demands extensive labeled audio data that is often difficult to acquire and unavailable for specific domains. In this study, we propose a method to enhance transcription accuracy without explicit fine-tuning or altering model parameters, using a relatively small training dataset. Our method leverages contextual biasing, to direct Whisper model's output towards a specific vocabulary by integrating a neural-symbolic prefix tree structure to guide the model's transcription output. To validate our approach, we conducted experiments using a validation dataset comprising maritime data collected within a simulated training environment. A comparison between the original Whisper models of varying parameter sizes and our biased model revealed a notable reduction in transcription word error rate and enhanced performance of downstream applications. Our findings suggest that this methodology holds promise for improving speech-to-text translation performance in domains characterized by limited vocabularies.
- Abstract(参考訳): OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
しかし、この広い適応性は特定の語彙の認識を必要とするタスクにおける性能の低下につながる可能性がある。
この課題に対処するには、通常、特定のドメインで取得が困難で利用できない広範囲なラベル付きオーディオデータを必要とするモデルを微調整する必要がある。
本研究では,比較的小さなトレーニングデータセットを用いて,モデルパラメータを明示的に微調整したり変更したりすることなく,転写精度を向上させる手法を提案する。
本手法は文脈バイアスを利用して,ニューラルシンボリックプレフィックスツリー構造を統合して,Whisperモデルの出力を特定の語彙に向ける。
本手法の有効性を検証するため,模擬訓練環境内で収集した海洋データからなる検証データセットを用いて実験を行った。
パラメータサイズが異なる元のWhisperモデルとバイアスモデルとの比較により,書き起こし単語誤り率の顕著な低減と下流アプリケーションの性能向上が示された。
本手法は,限られた語彙を特徴とする領域における音声からテキストへの翻訳性能の向上を約束するものである。
関連論文リスト
- Controlled Randomness Improves the Performance of Transformer Models [4.678970068275123]
制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善する。
このようなノイズを加えることで、結合したエンティティ認識と関係抽出とテキスト要約という2つの下流タスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-10-20T14:12:55Z) - Optimized Tokenization for Transcribed Error Correction [10.297878672883973]
本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:14:21Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Syntactic Data Augmentation Increases Robustness to Inference Heuristics [27.513414694720716]
BERTのような事前訓練されたニューラルネットワークモデルは、標準データセットに対して高い精度を示すが、制御されたチャレンジセットに対する単語順序に対する感度の驚くべき欠如がある。
我々は,MNLIコーパスからの文に構文変換を適用して生成した構文的情報的例を用いて,標準学習セットを増強するいくつかの手法について検討する。
MNLIテストセットの性能に影響を与えることなく、単語の順序に対する感度を0.28から0.73に診断する制御例におけるBERTの精度を改善した。
論文 参考訳(メタデータ) (2020-04-24T21:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。