Fugu-MT 論文翻訳(概要): PromptASR for contextualized ASR with controllable style

論文の概要: PromptASR for contextualized ASR with controllable style

arxiv url: http://arxiv.org/abs/2309.07414v1
Date: Thu, 14 Sep 2023 03:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 16:19:41.480484
Title: PromptASR for contextualized ASR with controllable style
Title（参考訳）: 制御可能なASRのためのPromptASR
Authors: Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun Kuang, Long Lin, Daniel Povey
Abstract要約: 本稿では,エンドツーエンドの自動音声認識システムにプロンプトを統合するフレームワークであるPromptASRを提案する。本システムでは,書籍読解データセットの単語誤り率を21.9%と6.8%削減する。テキストエンコーダに追加のスタイルプロンプトを付与し、ASRシステムを誘導して異なるスタイルの書き起こしを出力する。
参考スコア（独自算出の注目度）: 19.493184060647728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompts are crucial to large language models as they provide context information such as topic or logical relationships. Inspired by this, we propose PromptASR, a framework that integrates prompts in end-to-end automatic speech recognition (E2E ASR) systems to achieve contextualized ASR with controllable style of transcriptions. Specifically, a dedicated text encoder encodes the text prompts and the encodings are injected into the speech encoder by cross-attending the features from two modalities. When using the ground truth text from preceding utterances as content prompt, the proposed system achieves 21.9% and 6.8% relative word error rate reductions on a book reading dataset and an in-house dataset compared to a baseline ASR system. The system can also take word-level biasing lists as prompt to improve recognition accuracy on rare words. An additional style prompt can be given to the text encoder and guide the ASR system to output different styles of transcriptions. The code is available at icefall.
Abstract（参考訳）: プロンプトは、トピックや論理関係といったコンテキスト情報を提供するため、大きな言語モデルにとって不可欠である。そこで本研究では,E2E自動音声認識(E2E ASR)システムにプロンプトを統合するフレームワークであるPromptASRを提案する。具体的には、専用テキストエンコーダがテキストプロンプトを符号化し、そのエンコーダを2つのモーダルから特徴を交叉して音声エンコーダに注入する。先行する発話の真実文をコンテンツプロンプトとして使用する場合,本システムは,本文読解データセットと本文内データセットに対して,ベースラインASRシステムと比較して,21.9%,6.8%の単語誤り率削減を実現している。このシステムは、単語レベルの偏見リストを、まれな単語の認識精度の向上に役立てることができる。追加のスタイルプロンプトがテキストエンコーダに与えられ、asrシステムが異なる書き起こしスタイルを出力するようにガイドすることができる。コードはアイスフォールで入手できる。

関連論文リスト

When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。 OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文参考訳（メタデータ） (2026-01-21T06:18:57Z)
Integrating Vision-Centric Text Understanding for Conversational Recommender Systems [61.731947296510164]
STARCRSはScreen-Text-AwaRe Conversational Recommender Systemである。本稿では, コントラストアライメント, クロスアテンション相互作用, 適応ゲーティングを組み合わせた知識認識融合フレームワークを提案する。広く使われている2つのベンチマークの実験では、STARCRSはレコメンデーション精度と生成された応答品質の両方を一貫して改善している。
論文参考訳（メタデータ） (2026-01-20T01:41:54Z)
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。台湾語マンダリン音声における枠組みの有効性を実証する。
論文参考訳（メタデータ） (2025-06-10T17:30:32Z)
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文参考訳（メタデータ） (2024-11-20T09:49:37Z)
Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文参考訳（メタデータ） (2024-08-15T08:50:58Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-06-14T11:53:14Z)
Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。 IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文参考訳（メタデータ） (2024-01-31T14:13:01Z)
Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文参考訳（メタデータ） (2023-10-22T11:57:33Z)
Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。 ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文参考訳（メタデータ） (2023-05-12T11:29:13Z)
Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文参考訳（メタデータ） (2022-04-04T23:48:01Z)
Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文参考訳（メタデータ） (2021-04-21T03:05:12Z)
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。 IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文参考訳（メタデータ） (2021-04-20T17:10:01Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。