論文の概要: Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions
- arxiv url: http://arxiv.org/abs/2407.17874v1
- Date: Thu, 25 Jul 2024 08:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:38:10.830186
- Title: Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions
- Title(参考訳): LLM生成文脈記述によるドメイン特化ASRの改善
- Authors: Jiwon Suh, Injae Na, Woohwan Jung,
- Abstract要約: アーキテクチャを変更せずに最先端のWhisperを利用する方法を提案する。
また,ドメイン固有のASRを改善するための2つのトレーニング手法を提案する。
提案手法は,実生活データセット上でのドメイン固有ASR精度を顕著に向上することを示した。
- 参考スコア(独自算出の注目度): 1.3791394805787949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (E2E ASR) systems have significantly improved speech recognition through training on extensive datasets. Despite these advancements, they still struggle to accurately recognize domain specific words, such as proper nouns and technical terminologies. To address this problem, we propose a method to utilize the state-of-the-art Whisper without modifying its architecture, preserving its generalization performance while enabling it to leverage descriptions effectively. Moreover, we propose two additional training techniques to improve the domain specific ASR: decoder fine-tuning, and context perturbation. We also propose a method to use a Large Language Model (LLM) to generate descriptions with simple metadata, when descriptions are unavailable. Our experiments demonstrate that proposed methods notably enhance domain-specific ASR accuracy on real-life datasets, with LLM-generated descriptions outperforming human-crafted ones in effectiveness.
- Abstract(参考訳): エンドツーエンド自動音声認識(E2E ASR)システムは、広範囲なデータセットのトレーニングを通じて音声認識を大幅に改善した。
これらの進歩にもかかわらず、適切な名詞や専門用語など、ドメイン固有の単語を正確に認識することは依然として困難である。
この問題に対処するために,アーキテクチャを変更することなく,その一般化性能を保ちながら,記述を効果的に活用する手法を提案する。
さらに,デコーダの微調整とコンテキスト摂動という,ドメイン固有のASRを改善するための2つのトレーニング手法を提案する。
また,説明が不可能な場合には,LLM(Large Language Model)を用いて簡単なメタデータで記述を生成する手法を提案する。
提案手法は実生活データセットにおけるドメイン固有のASR精度を顕著に向上し,LLMによる記述は人為的記述よりも有効であることを示した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - A Deep Learning System for Domain-specific Speech Recognition [0.0]
著者らは、事前に訓練されたDeepSpeech2とWav2Vec2音響モデルを使って、利益特異的なASRシステムの開発を行っている。
最高の性能は、Wav2Vec2-Large-LV60音響モデルと外部KenLMから得られる。
また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。
論文 参考訳(メタデータ) (2023-03-18T22:19:09Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。