論文の概要: Multi-Task Learning for Front-End Text Processing in TTS
- arxiv url: http://arxiv.org/abs/2401.06321v1
- Date: Fri, 12 Jan 2024 02:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:46:43.941096
- Title: Multi-Task Learning for Front-End Text Processing in TTS
- Title(参考訳): TTSにおけるフロントエンドテキスト処理のためのマルチタスク学習
- Authors: Wonjune Kang, Yun Wang, Shun Zhang, Arthur Hinsvark, Qing He
- Abstract要約: テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
- 参考スコア(独自算出の注目度): 15.62497569424995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a multi-task learning (MTL) model for jointly performing three
tasks that are commonly solved in a text-to-speech (TTS) front-end: text
normalization (TN), part-of-speech (POS) tagging, and homograph disambiguation
(HD). Our framework utilizes a tree-like structure with a trunk that learns
shared representations, followed by separate task-specific heads. We further
incorporate a pre-trained language model to utilize its built-in lexical and
contextual knowledge, and study how to best use its embeddings so as to most
effectively benefit our multi-task model. Through task-wise ablations, we show
that our full model trained on all three tasks achieves the strongest overall
performance compared to models trained on individual or sub-combinations of
tasks, confirming the advantages of our MTL framework. Finally, we introduce a
new HD dataset containing a balanced number of sentences in diverse contexts
for a variety of homographs and their pronunciations. We demonstrate that
incorporating this dataset into training significantly improves HD performance
over only using a commonly used, but imbalanced, pre-existing dataset.
- Abstract(参考訳): 本稿では,tts(text-to-speech)フロントエンド(text normalization),pos(part-of-speech)タグ付け(part-of-speech),hd(homograph disambiguation)の3つのタスクを共同で行うマルチタスク学習モデルを提案する。
私たちのフレームワークは、共有表現を学習するトランクと、タスク固有のヘッドを分離したツリーのような構造を利用します。
さらに,組込み語彙と文脈の知識を活用するための事前学習された言語モデルも取り入れて,組込みを最大限に活用して,マルチタスクモデルに最も効果的なメリットを享受する方法について検討しています。
タスク・ワイド・アブリケーションを通じて、我々の3つのタスクで訓練されたフルモデルが、タスクの個別またはサブコンビネーションで訓練されたモデルと比較して最も高い総合的なパフォーマンスを達成することを示す。
最後に,様々なホモグラフとその発音の多様な文脈において,バランスのとれた文数を含む新しいhdデータセットを提案する。
このデータセットをトレーニングに組み込むことで、一般的に使われているが、既存の非バランスなデータセットよりもHDパフォーマンスが大幅に向上することを示した。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Learning Easily Updated General Purpose Text Representations with
Adaptable Task-Specific Prefixes [22.661527526471996]
ダウンストリームタスク毎にトレーニング済みの大きな言語モデルを微調整すると、計算負荷が発生する。
そこで本研究では,ソースタスクを用いてテキストの固定表現を学習するためのプレフィックスベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T21:31:03Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken
Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。
ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。
提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文 参考訳(メタデータ) (2020-10-23T10:28:20Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。