論文の概要: Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token Based ASR
- arxiv url: http://arxiv.org/abs/2311.04534v1
- Date: Wed, 8 Nov 2023 08:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:24:08.899174
- Title: Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token Based ASR
- Title(参考訳): 離散整合型ASRのためのデコーダのみ変換器の損失マスキングは不要
- Authors: Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Shiliang Zhang, Chong
Deng, Yukun Ma, Hai Yu, Jiaqing Liu, Chong Zhang
- Abstract要約: SpeechGPT、VioLA、AudioPaLMのような統一された音声テキストモデルは、音声タスクにおいて顕著なパフォーマンスを達成した。
入力音声トークン上のスムーズなラベル付きKL分散損失を導入した,Smoothed Label Distillation (SLD) という新しい手法を提案する。
実験により、SLDアプローチはクロスエントロピー損失の限界を緩和し、デコーダのみのトランスフォーマーベースのASRにおいてロス・マスキングを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 58.136778669618096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, unified speech-text models, such as SpeechGPT, VioLA, and
AudioPaLM, have achieved remarkable performance on speech tasks. These models
convert continuous speech signals into discrete tokens (speech discretization)
and merge text and speech tokens into a shared vocabulary. Then they train a
single decoder-only Transformer on a mixture of speech tasks. Specifically, all
these models utilize Loss Masking on the input speech tokens for the ASR task,
which means that these models do not explicitly model the dependency between
the speech tokens. In this paper, we attempt to model the sequence of speech
tokens in an autoregressive manner like text. However, we find that applying
the conventional cross-entropy loss on input speech tokens does not
consistently improve the ASR performance over Loss Masking. Therefore, we
propose a novel approach denoted Smoothed Label Distillation (SLD), which
introduces a KL divergence loss with smoothed labels on the input speech tokens
to effectively model speech tokens. Experiments demonstrate that our SLD
approach alleviates the limitations of the cross-entropy loss and consistently
outperforms Loss Masking for decoder-only Transformer based ASR using different
speech discretization methods.
- Abstract(参考訳): 近年,SpeechGPT,VioLA,AudioPaLMなどの統合音声テキストモデルが,音声タスクにおいて顕著なパフォーマンスを実現している。
これらのモデルは、連続した音声信号を離散トークン(音声離散化)に変換し、テキストと音声トークンを共有語彙にマージする。
そして、1つのデコーダのみのトランスフォーマーを複数の音声タスクで訓練する。
具体的には、これらのモデルは全てASRタスクの入力音声トークンにロス・マスキングを利用するため、これらのモデルは音声トークン間の依存関係を明示的にモデル化しない。
本稿では,テキストのような自己回帰的な方法で音声トークンのシーケンスをモデル化する。
しかし,従来のクロスエントロピー損失を入力音声トークンに適用しても,ロスマスキングよりもASR性能が向上しないことがわかった。
そこで本稿では,入力音声トークンにスムーズラベルを付加したKL分散損失を導入し,音声トークンを効果的にモデル化する,Smoothed Label Distillation (SLD) という新しい手法を提案する。
実験により,クロスエントロピー損失の制限を緩和し,異なる音声識別法を用いたデコーダのみを用いたasrの損失マスキングを一貫して改善することを示す。
関連論文リスト
- DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。