論文の概要: Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR
- arxiv url: http://arxiv.org/abs/2210.12134v1
- Date: Fri, 21 Oct 2022 17:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:56:16.779328
- Title: Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR
- Title(参考訳): エンド・ツー・エンドASRからの音声テキストサブワード表現を用いた音声入力
- Authors: Pranay Dighe, Prateeth Nayak, Oggi Rudovic, Erik Marchi, Xiaochuan
Niu, Ahmed Tewfik
- Abstract要約: 本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
- 参考スコア(独自算出の注目度): 8.832255053182283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of the user intent to interact with a voice assistant
(VA) on a device (e.g. on the phone) is critical for achieving naturalistic,
engaging, and privacy-centric interactions with the VA. To this end, we present
a novel approach to predict the user's intent (the user speaking to the device
or not) directly from acoustic and textual information encoded at subword
tokens which are obtained via an end-to-end ASR model. Modeling directly the
subword tokens, compared to modeling of the phonemes and/or full words, has at
least two advantages: (i) it provides a unique vocabulary representation, where
each token has a semantic meaning, in contrast to the phoneme-level
representations, (ii) each subword token has a reusable "sub"-word acoustic
pattern (that can be used to construct multiple full words), resulting in a
largely reduced vocabulary space than of the full words. To learn the subword
representations for the audio-to-intent classification, we extract: (i)
acoustic information from an E2E-ASR model, which provides frame-level CTC
posterior probabilities for the subword tokens, and (ii) textual information
from a pre-trained continuous bag-of-words model capturing the semantic meaning
of the subword tokens. The key to our approach is the way it combines acoustic
subword-level posteriors with text information using the notion of
positional-encoding in order to account for multiple ASR hypotheses
simultaneously. We show that our approach provides more robust and richer
representations for audio-to-intent classification, and is highly accurate with
correctly mitigating 93.3% of unintended user audio from invoking the smart
assistant at 99% true positive rate.
- Abstract(参考訳): デバイス(例えば電話)上で音声アシスタント(va)と対話するユーザの意図を正確に予測することは、自然主義的、興味深く、プライバシー中心の相互作用を達成するために重要である。
この目的のために,エンド・ツー・エンドのASRモデルを用いて得られたサブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
サブワードトークンを直接モデリングする場合、音素やフルワードのモデリングと比較すると、少なくとも2つの利点がある。
i) 音素レベルの表現とは対照的に、各トークンが意味論的意味を持つ独自の語彙表現を提供する。
(ii)各サブワードトークンは、再利用可能な「サブワード」の音響パターン(複数のフルワードを構築するのに使用できる)を持ち、結果として、フルワードよりも語彙空間が大幅に減少する。
音声から情報への分類のためのサブワード表現を学習するために、抽出する。
一 サブワードトークンに対するフレームレベルのCTC後部確率を提供するE2E-ASRモデルからの音響情報及び
(ii)サブワードトークンの意味的意味を捉えた事前学習された単語の連続袋モデルからのテキスト情報。
我々のアプローチの鍵は、複数のASR仮説を同時に説明するために、位置エンコーディングの概念を用いて、音響サブワードレベルの後部とテキスト情報を組み合わせることである。
提案手法は,意図しないユーザ音声の93.3%を正の99%の正の率でスマートアシスタントに呼び出すことにより,高精度で高精度な音声対応が可能となることを示す。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition [46.675712485821805]
単語単位は通常、エンドツーエンドの自動音声認識(ASR)に使用される。
本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させる音響データ駆動サブワードモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-19T07:54:15Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文 参考訳(メタデータ) (2020-11-23T13:29:16Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。