論文の概要: Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.10707v1
- Date: Mon, 18 Sep 2023 15:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:42:48.522808
- Title: Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models
- Title(参考訳): 大規模言語モデルを用いたゼロショットASRドメイン適応のためのコーパス合成
- Authors: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Raviteja Vemulapalli,
Jen-Hao Rick Chang, Karren Yang, Gautam Varma Mantena, Oncel Tuzel
- Abstract要約: そこで本稿では,新たなターゲットドメインにASRモデルを適用するための新たな戦略を提案する。
SLURPデータセットを用いた実験により,提案手法は未知のターゲットドメインに対して平均相対単語誤り率を28%向上させることができた。
- 参考スコア(独自算出の注目度): 19.726699481313194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Automatic Speech Recognition (ASR) systems are widely used in many
real-world applications, they often do not generalize well to new domains and
need to be finetuned on data from these domains. However, target-domain data
usually are not readily available in many scenarios. In this paper, we propose
a new strategy for adapting ASR models to new target domains without any text
or speech from those domains. To accomplish this, we propose a novel data
synthesis pipeline that uses a Large Language Model (LLM) to generate a target
domain text corpus, and a state-of-the-art controllable speech synthesis model
to generate the corresponding speech. We propose a simple yet effective
in-context instruction finetuning strategy to increase the effectiveness of LLM
in generating text corpora for new domains. Experiments on the SLURP dataset
show that the proposed method achieves an average relative word error rate
improvement of $28\%$ on unseen target domains without any performance drop in
source domains.
- Abstract(参考訳): ASR(Automatic Speech Recognition)システムは、多くの現実世界のアプリケーションで広く使われているが、しばしば新しいドメインにうまく一般化せず、これらのドメインのデータに基づいて微調整する必要がある。
しかし、ターゲットドメインのデータは多くのシナリオでは利用できない。
本稿では,これらのドメインからのテキストや音声を使わずに,新たなターゲットドメインにASRモデルを適用するための新しい戦略を提案する。
そこで本研究では,Large Language Model (LLM) を用いて対象領域のテキストコーパスを生成する新しいデータ合成パイプラインと,それに対応する音声を生成する最先端制御可能な音声合成モデルを提案する。
テキストコーパス生成における LLM の有効性を高めるため, 簡易かつ効果的なテキスト内命令微調整手法を提案する。
SLURPデータセットを用いた実験の結果,提案手法は,ソースドメインの性能低下を伴わずに,未確認対象ドメインの平均単語誤り率を2,8\%向上させることができた。
関連論文リスト
- Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context
Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。
本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。
我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文 参考訳(メタデータ) (2023-11-20T06:06:20Z) - Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。
大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。
さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文 参考訳(メタデータ) (2023-10-13T18:27:33Z) - General-to-Specific Transfer Labeling for Domain Adaptable Keyphrase
Generation [30.167332489528608]
トレーニングキーフレーズ生成(KPG)モデルは、大量の注釈付きデータを必要とする。
KPGモデルの一般的な構文的特徴からドメイン関連セマンティクスへの学習焦点を徐々にガイドする3段階パイプラインを提案する。
実験結果から,提案手法は高品質なキーフレーズを新規ドメインで生成し,ドメイン内アノテートされた限られたデータに適応して一貫した改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-08-20T04:43:01Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Dynamic Instance Domain Adaptation [109.53575039217094]
教師なしのドメイン適応に関するほとんどの研究は、各ドメインのトレーニングサンプルがドメインラベルを伴っていると仮定している。
適応的な畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。
我々のモデルはDIDA-Netと呼ばれ、複数の一般的な単一ソースおよび複数ソースのUDAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-09T20:05:54Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z) - Meta-Learning for Domain Generalization in Semantic Parsing [124.32975734073949]
セマンティック解析のためにゼロショットドメインをターゲットにしたメタラーニングフレームワークを使用する。
ゼロショット解析の仮想トレインと非結合領域からのテストセットをシミュレートするモデル非依存のトレーニングアルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-10-22T19:00:36Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。