Fugu-MT 論文翻訳(概要): Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning

論文の概要: Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning

arxiv url: http://arxiv.org/abs/2307.10274v2
Date: Fri, 6 Oct 2023 03:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 05:30:17.613029
Title: Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning
Title（参考訳）: プロンプトコンディショニングによるゼロショット領域感性音声認識
Authors: Feng-Ting Liao, Yung-Chieh Chan, Yi-Chang Chen, Chan-Jan Hsu, Da-shan Shiu
Abstract要約: 我々は,各ドメインの未知のデータセットに対して,ワード誤り率(WER)を最大33%削減できることを示す。我々は本手法をテキストのみの微調整に拡張し、ドメインの感度とドメイン適応を実現する。
参考スコア（独自算出の注目度）: 11.585880477614495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose a method to create domain-sensitive speech recognition models that utilize textual domain information by conditioning its generation on a given text prompt. This is accomplished by fine-tuning a pre-trained, end-to-end model (Whisper) to learn from demonstrations with prompt examples. We show that this ability can be generalized to different domains and even various prompt contexts, with our model gaining a Word Error Rate (WER) reduction of up to 33% on unseen datasets from various domains, such as medical conversation, air traffic control communication, and financial meetings. Considering the limited availability of audio-transcript pair data, we further extend our method to text-only fine-tuning to achieve domain sensitivity as well as domain adaptation. We demonstrate that our text-only fine-tuned model can also attend to various prompt contexts, with the model reaching the most WER reduction of 29% on the medical conversation dataset.
Abstract（参考訳）: 本研究では,テキスト・プロンプトにその生成を条件付け,テキスト・ドメイン情報を利用したドメイン感性音声認識モデルを作成する手法を提案する。これは、事前訓練されたエンドツーエンドモデル(whisper)を微調整して、簡単な例でデモから学ぶことで実現される。医療会話や航空交通管制コミュニケーション,金融会議など,さまざまな領域の未確認データセットに対して,ワードエラー率(WER)を最大33%削減するモデルによって,この能力をさまざまなドメインや,さらには迅速な状況にも一般化できることを示す。音声書き起こしペアデータの可用性が限られていることを考慮し、本手法をさらにテキストのみの微調整に拡張し、ドメインの感度とドメイン適応を実現する。テキストのみの微調整モデルもさまざまなプロンプトコンテキストに適応できることを実証し,医療会話データセットで最大29%の削減を達成した。

関連論文リスト

Do Slides Help? Multi-modal Context for Automatic Transcription of Conference Talks [15.549564249284858]
本研究は、科学的なプレゼンテーションのユースケースのためのプレゼンテーションスライドの統合に焦点を当てている。我々は、ドメイン固有項の自動解析を含むマルチモーダルプレゼンテーションのためのベンチマークを作成する。拡張データセットを用いてモデルをトレーニングし、ベースラインモデルと比較して単語誤り率を約34%、ドメイン固有の用語で約35%削減する。
論文参考訳（メタデータ） (2025-10-15T18:04:16Z)
Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。対象の音声を抽出するためには、テキストの文脈にのみ依存する。 3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文参考訳（メタデータ） (2025-03-11T18:26:10Z)
Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-10-24T01:58:11Z)
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文参考訳（メタデータ） (2024-08-17T14:47:05Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文参考訳（メタデータ） (2023-10-09T17:59:21Z)
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文参考訳（メタデータ） (2023-09-04T08:52:59Z)
Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文参考訳（メタデータ） (2023-05-03T02:30:46Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
A Simple Baseline for Domain Adaptation in End to End ASR Systems Using Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文参考訳（メタデータ） (2022-06-22T12:07:38Z)
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文参考訳（メタデータ） (2022-03-29T19:08:55Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。