論文の概要: Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.10707v1
- Date: Mon, 18 Sep 2023 15:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:42:48.522808
- Title: Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models
- Title(参考訳): 大規模言語モデルを用いたゼロショットASRドメイン適応のためのコーパス合成
- Authors: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Raviteja Vemulapalli,
Jen-Hao Rick Chang, Karren Yang, Gautam Varma Mantena, Oncel Tuzel
- Abstract要約: そこで本稿では,新たなターゲットドメインにASRモデルを適用するための新たな戦略を提案する。
SLURPデータセットを用いた実験により,提案手法は未知のターゲットドメインに対して平均相対単語誤り率を28%向上させることができた。
- 参考スコア(独自算出の注目度): 19.726699481313194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Automatic Speech Recognition (ASR) systems are widely used in many
real-world applications, they often do not generalize well to new domains and
need to be finetuned on data from these domains. However, target-domain data
usually are not readily available in many scenarios. In this paper, we propose
a new strategy for adapting ASR models to new target domains without any text
or speech from those domains. To accomplish this, we propose a novel data
synthesis pipeline that uses a Large Language Model (LLM) to generate a target
domain text corpus, and a state-of-the-art controllable speech synthesis model
to generate the corresponding speech. We propose a simple yet effective
in-context instruction finetuning strategy to increase the effectiveness of LLM
in generating text corpora for new domains. Experiments on the SLURP dataset
show that the proposed method achieves an average relative word error rate
improvement of $28\%$ on unseen target domains without any performance drop in
source domains.
- Abstract(参考訳): ASR(Automatic Speech Recognition)システムは、多くの現実世界のアプリケーションで広く使われているが、しばしば新しいドメインにうまく一般化せず、これらのドメインのデータに基づいて微調整する必要がある。
しかし、ターゲットドメインのデータは多くのシナリオでは利用できない。
本稿では,これらのドメインからのテキストや音声を使わずに,新たなターゲットドメインにASRモデルを適用するための新しい戦略を提案する。
そこで本研究では,Large Language Model (LLM) を用いて対象領域のテキストコーパスを生成する新しいデータ合成パイプラインと,それに対応する音声を生成する最先端制御可能な音声合成モデルを提案する。
テキストコーパス生成における LLM の有効性を高めるため, 簡易かつ効果的なテキスト内命令微調整手法を提案する。
SLURPデータセットを用いた実験の結果,提案手法は,ソースドメインの性能低下を伴わずに,未確認対象ドメインの平均単語誤り率を2,8\%向上させることができた。
関連論文リスト
- Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model [0.0]
Few-Shot Cross-Domain NERは、データ豊富なソースドメインからの知識を活用して、データ不足のターゲットドメイン上でエンティティ認識を実行するプロセスである。
名前付きエンティティ認識のための検索拡張大言語モデルIF-WRANERを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:57:29Z) - Schema Augmentation for Zero-Shot Domain Adaptation in Dialogue State Tracking [16.67185296899117]
ゼロショットドメイン適応のための現在の大規模言語モデルアプローチは、ターゲットドメインに関連する知識の導入を促すことに依存している。
本研究では,言語モデルのゼロショット領域適応を微調整により改善する新しいデータ拡張手法であるAugmentationを考案する。
MultiWOZ と SpokenWOZ の実験により,提案手法はベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-10-31T18:57:59Z) - Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation [66.72195610471624]
Cross-Domain Sequential Recommendationは、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
本稿では,ユーザ検索手法を探索し,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:19:54Z) - UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation [6.3823202275924125]
本稿では,対象領域によらずデータセットを生成する普遍的領域一般化に対する新しいアプローチを提案する。
提案手法は, PLM よりも桁違いの小さいパラメータ集合を用いて, 各領域にまたがる一般化性を実現する。
論文 参考訳(メタデータ) (2024-05-02T05:46:13Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Meta-Learning for Domain Generalization in Semantic Parsing [124.32975734073949]
セマンティック解析のためにゼロショットドメインをターゲットにしたメタラーニングフレームワークを使用する。
ゼロショット解析の仮想トレインと非結合領域からのテストセットをシミュレートするモデル非依存のトレーニングアルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-10-22T19:00:36Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。