論文の概要: Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2011.09044v2
- Date: Thu, 15 Apr 2021 16:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:57:23.000668
- Title: Tie Your Embeddings Down: Cross-Modal Latent Spaces for End-to-end
Spoken Language Understanding
- Title(参考訳): Tie your Embeddings: エンドツーエンドの音声言語理解のためのクロスモーダルラテントスペース
- Authors: Bhuvan Agrawal, Markus M\"uller, Martin Radfar, Samridhi Choudhary,
Athanasios Mouchtaris, Siegfried Kunzmann
- Abstract要約: 我々はE2Eシステムをマルチモーダルモデルとして扱い、音声とテキストを2つのモーダルとして機能させる。
テキスト埋め込みに近い音響埋め込みを誘導するために,異なるマルチモーダルな損失を用いることを提案する。
CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 14.752834813510702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) spoken language understanding (SLU) systems can infer the
semantics of a spoken utterance directly from an audio signal. However,
training an E2E system remains a challenge, largely due to the scarcity of
paired audio-semantics data. In this paper, we treat an E2E system as a
multi-modal model, with audio and text functioning as its two modalities, and
use a cross-modal latent space (CMLS) architecture, where a shared latent space
is learned between the `acoustic' and `text' embeddings. We propose using
different multi-modal losses to explicitly guide the acoustic embeddings to be
closer to the text embeddings, obtained from a semantically powerful
pre-trained BERT model. We train the CMLS model on two publicly available E2E
datasets, across different cross-modal losses and show that our proposed
triplet loss function achieves the best performance. It achieves a relative
improvement of 1.4% and 4% respectively over an E2E model without a cross-modal
space and a relative improvement of 0.7% and 1% over a previously published
CMLS model using $L_2$ loss. The gains are higher for a smaller, more
complicated E2E dataset, demonstrating the efficacy of using an efficient
cross-modal loss function, especially when there is limited E2E training data
available.
- Abstract(参考訳): エンドツーエンド(E2E)音声言語理解システム(SLU)は、音声信号から直接音声発話の意味を推測することができる。
しかし、e2eシステムのトレーニングは、ペアオーディオ・セマンティクスデータの不足のため、依然として課題である。
本稿では,E2E システムをマルチモーダルモデルとして扱い,音声とテキストを2つのモーダルとして機能させ,マルチモーダルなラテント空間 (CMLS) アーキテクチャを用いて,"音響" と "テキスト" の埋め込み間で共有のラテント空間を学習する。
意味論的に強力に訓練済みのBERTモデルから得られたテキスト埋め込みに近い音響埋め込みを明示的に導くために,異なるマルチモーダル損失を用いることを提案する。
CMLSモデルを2つの公開E2Eデータセット上にトレーニングし,提案した三重項損失関数が最高の性能を発揮することを示す。
クロスモーダル空間を持たないE2Eモデルに対してそれぞれ1.4%と4%の相対的な改善を達成し、それ以前のCMLSモデルに対して0.7%と1%の相対的な改善を$L_2$損失で達成した。
より小さく複雑なE2Eデータセットでは、特に限られたE2Eトレーニングデータがある場合に、効率的なクロスモーダル損失関数を使用することの有効性を示す。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - End-to-End Speech to Intent Prediction to improve E-commerce Customer
Support Voicebot in Hindi and English [0.0]
本稿では、カスタマーサポート音声ボットタスクのためのエンドツーエンド(E2E)S2Iモデルをバイリンガル環境で論じる。
本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 少量の注釈付きデータセットを微調整することで, E2Eの意図分類を解く方法について述べる。
論文 参考訳(メタデータ) (2022-10-26T18:29:44Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。