論文の概要: T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5
- arxiv url: http://arxiv.org/abs/2211.00586v1
- Date: Tue, 1 Nov 2022 17:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:38:14.697252
- Title: T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5
- Title(参考訳): T5lephone: 音素レベルT5による音声理解のための音声とテキスト自己組織化モデル
- Authors: Chan-Jan Hsu, Ho-Lam Chung, Hung-yi Lee, Yu Tsao
- Abstract要約: 我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
- 参考スコア(独自算出の注目度): 65.32642587901903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Spoken language understanding (SLU), a natural solution is concatenating
pre-trained speech models (e.g. HuBERT) and pretrained language models (PLM,
e.g. T5). Most previous works use pretrained language models with subword-based
tokenization. However, the granularity of input units affects the alignment of
speech model outputs and language model inputs, and PLM with character-based
tokenization is underexplored. In this work, we conduct extensive studies on
how PLMs with different tokenization strategies affect spoken language
understanding task including spoken question answering (SQA) and speech
translation (ST). We further extend the idea to create T5lephone(pronounced as
telephone), a variant of T5 that is pretrained using phonemicized text. We
initialize T5lephone with existing PLMs to pretrain it using relatively
lightweight computational resources. We reached state-of-the-art on NMSQA, and
the T5lephone model exceeds T5 with other types of units on end-to-end SQA and
ST.
- Abstract(参考訳): Spoken言語理解(SLU)では、自然解は事前訓練された音声モデル(例えば HuBERT)と事前訓練された言語モデル(例えば T5)を結合する。
以前の作品のほとんどは、サブワードベースのトークン化を伴う事前学習された言語モデルを使っている。
しかし、入力単位の粒度は、音声モデル出力と言語モデル入力のアライメントに影響し、文字ベースのトークン化を伴うPLMは未探索である。
本研究では,異なるトークン化戦略を持つplmが,音声質問応答(sqa)と音声翻訳(st)を含む音声言語理解タスクにどのように影響するかについて広範な研究を行う。
さらに,t5lephone (phone と発音する) は,音素化テキストを用いて事前学習される t5 の変種である。
我々はT5lephoneを既存のPLMで初期化し、比較的軽量な計算資源を用いて事前訓練する。
我々はNMSQAの最先端に到達し、T5lephoneモデルはT5を超え、他のタイプのユニットはエンドツーエンドのSQAとSTである。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Sequence to sequence pretraining for a less-resourced Slovenian language [0.0]
我々は2つの異なる大きさのT5型配列を、より少ない資源で形態的にリッチなスロベニア語のシーケンスモデルに訓練し、それらの振る舞いを分析した。
分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。
論文 参考訳(メタデータ) (2022-07-28T10:08:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language
Processing [77.4527868307914]
本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。
SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。
テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:59:27Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。