論文の概要: PromptASR for contextualized ASR with controllable style
- arxiv url: http://arxiv.org/abs/2309.07414v2
- Date: Wed, 20 Sep 2023 09:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 18:24:03.507695
- Title: PromptASR for contextualized ASR with controllable style
- Title(参考訳): 制御可能なASRのためのPromptASR
- Authors: Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun
Kuang, Long Lin, Daniel Povey
- Abstract要約: 本稿では,エンドツーエンドの自動音声認識システムにプロンプトを統合するフレームワークであるPromptASRを提案する。
本システムでは,書籍読解データセットの単語誤り率を21.9%と6.8%削減する。
テキストエンコーダに追加のスタイルプロンプトを付与し、ASRシステムを誘導して異なるスタイルの書き起こしを出力する。
- 参考スコア(独自算出の注目度): 19.493184060647728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompts are crucial to large language models as they provide context
information such as topic or logical relationships. Inspired by this, we
propose PromptASR, a framework that integrates prompts in end-to-end automatic
speech recognition (E2E ASR) systems to achieve contextualized ASR with
controllable style of transcriptions. Specifically, a dedicated text encoder
encodes the text prompts and the encodings are injected into the speech encoder
by cross-attending the features from two modalities. When using the ground
truth text from preceding utterances as content prompt, the proposed system
achieves 21.9% and 6.8% relative word error rate reductions on a book reading
dataset and an in-house dataset compared to a baseline ASR system. The system
can also take word-level biasing lists as prompt to improve recognition
accuracy on rare words. An additional style prompt can be given to the text
encoder and guide the ASR system to output different styles of transcriptions.
The code is available at icefall.
- Abstract(参考訳): プロンプトは、トピックや論理関係といったコンテキスト情報を提供するため、大きな言語モデルにとって不可欠である。
そこで本研究では,E2E自動音声認識(E2E ASR)システムにプロンプトを統合するフレームワークであるPromptASRを提案する。
具体的には、専用テキストエンコーダがテキストプロンプトを符号化し、そのエンコーダを2つのモーダルから特徴を交叉して音声エンコーダに注入する。
先行する発話の真実文をコンテンツプロンプトとして使用する場合,本システムは,本文読解データセットと本文内データセットに対して,ベースラインASRシステムと比較して,21.9%,6.8%の単語誤り率削減を実現している。
このシステムは、単語レベルの偏見リストを、まれな単語の認識精度の向上に役立てることができる。
追加のスタイルプロンプトがテキストエンコーダに与えられ、asrシステムが異なる書き起こしスタイルを出力するようにガイドすることができる。
コードはアイスフォールで入手できる。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-14T11:53:14Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。