論文の概要: Improving End-to-End Models for Set Prediction in Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2201.12105v1
- Date: Fri, 28 Jan 2022 13:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:50:30.318059
- Title: Improving End-to-End Models for Set Prediction in Spoken Language
Understanding
- Title(参考訳): 音声言語理解におけるセット予測のためのエンドツーエンドモデルの改善
- Authors: Hong-Kwang J. Kuo, Zoltan Tuske, Samuel Thomas, Brian Kingsbury,
George Saon
- Abstract要約: 本稿では、音声の順序を推測する暗黙の注意に基づくアライメント手法とともに、新しいデータ拡張手法を提案する。
F1スコアは、RNN-Tでは11%以上、注意に基づくエンコーダデコーダSLUモデルでは2%以上増加し、これまで報告された結果を上回った。
- 参考スコア(独自算出の注目度): 26.781489293420055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of spoken language understanding (SLU) systems is to determine the
meaning of the input speech signal, unlike speech recognition which aims to
produce verbatim transcripts. Advances in end-to-end (E2E) speech modeling have
made it possible to train solely on semantic entities, which are far cheaper to
collect than verbatim transcripts. We focus on this set prediction problem,
where entity order is unspecified. Using two classes of E2E models, RNN
transducers and attention based encoder-decoders, we show that these models
work best when the training entity sequence is arranged in spoken order. To
improve E2E SLU models when entity spoken order is unknown, we propose a novel
data augmentation technique along with an implicit attention based alignment
method to infer the spoken order. F1 scores significantly increased by more
than 11% for RNN-T and about 2% for attention based encoder-decoder SLU models,
outperforming previously reported results.
- Abstract(参考訳): 音声言語理解システム(SLU)の目標は,入力音声信号の意味を決定することである。
エンド・ツー・エンド(E2E)音声モデリングの進歩により、動詞の転写よりもはるかに安価に収集できるセマンティック・エンティティのみを訓練できるようになった。
我々は、エンティティの順序が未定であるこのセットの予測問題に焦点を当てる。
RNNトランスデューサとアテンションベースエンコーダ-デコーダの2種類のE2Eモデルを用いて,トレーニングエンティティシーケンスを音声順に並べた場合,これらのモデルが最もよく動作することを示す。
エンティティ音声の順序が不明な場合、E2E SLUモデルを改善するために、暗黙の注意に基づくアライメント手法とともに、新しいデータ拡張手法を提案する。
F1スコアは、RNN-Tで11%以上増加し、アテンションベースのエンコーダデコーダSLUモデルで約2%増加した。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - End-to-End Spoken Language Understanding Without Full Transcripts [38.19173637496798]
音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
CTCモデルとアテンションベースのエンコーダ・デコーダモデルという2つのタイプを作成した。
ATISコーパスにおける発話・発話実験では、CTCとアテンションモデルの両方が、非発話語をスキップする印象的な能力を示した。
論文 参考訳(メタデータ) (2020-09-30T01:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。