論文の概要: Can Contextual Biasing Remain Effective with Whisper and GPT-2?
- arxiv url: http://arxiv.org/abs/2306.01942v1
- Date: Fri, 2 Jun 2023 22:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 21:12:22.309190
- Title: Can Contextual Biasing Remain Effective with Whisper and GPT-2?
- Title(参考訳): コンテキストバイアスはWhisperとGPT-2に有効か?
- Authors: Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland
- Abstract要約: 本稿では,GPT-2を併用したWhisperに対する神経コンテキストバイアスの有効性について検討する。
3つのデータセットに対する実験では、1000単語の偏りリストで単語の偏りの誤差が大幅に減少している。
- 参考スコア(独自算出の注目度): 18.783162616664363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (ASR) and large language models, such
as Whisper and GPT-2, have recently been scaled to use vast amounts of training
data. Despite the large amount of training data, infrequent content words that
occur in a particular task may still exhibit poor ASR performance, with
contextual biasing a possible remedy. This paper investigates the effectiveness
of neural contextual biasing for Whisper combined with GPT-2. Specifically,
this paper proposes integrating an adapted tree-constrained pointer generator
(TCPGen) component for Whisper and a dedicated training scheme to dynamically
adjust the final output without modifying any Whisper model parameters.
Experiments across three datasets show a considerable reduction in errors on
biasing words with a biasing list of 1000 words. Contextual biasing was more
effective when applied to domain-specific data and can boost the performance of
Whisper and GPT-2 without losing their generality.
- Abstract(参考訳): エンドツーエンドの自動音声認識(ASR)とWhisperやGPT-2のような大規模言語モデルは、最近、膨大なトレーニングデータを使用するように拡張されている。
大量のトレーニングデータにもかかわらず、特定のタスクで発生する不適切なコンテンツワードは、文脈バイアスによって、asrのパフォーマンスが低下する可能性がある。
本稿では,GPT-2を併用したWhisperに対する神経コンテキストバイアスの有効性について検討する。
具体的には,Whisper に適応した木制約ポインタジェネレータ (TCPGen) コンポーネントと,Whisper モデルパラメータを変更することなく最終的な出力を動的に調整する専用のトレーニングスキームを統合することを提案する。
3つのデータセットに対する実験では、1000単語の偏りリストで単語の偏りの誤差が大幅に減少している。
コンテキストバイアスはドメイン固有のデータに適用するとより効果的であり、一般性を失うことなくwhisperとgpt-2のパフォーマンスを高めることができる。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Improving ASR Contextual Biasing with Guided Attention [47.74990801299927]
従来の文献では、文脈バイアスによる単語誤り率(WER)の減少は、バイアスフレーズの数が増えるにつれて減少する。
本稿では,自動音声認識(ASR)の文脈バイアスの有効性と堅牢性を,追加パラメータを導入することなく向上させる,ガイド付き注意(GA)補助訓練損失を提案する。
論文 参考訳(メタデータ) (2024-01-16T21:16:12Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks [3.703767478524629]
ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:35:54Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。