論文の概要: Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals
- arxiv url: http://arxiv.org/abs/2308.08125v1
- Date: Wed, 16 Aug 2023 03:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:03:36.813889
- Title: Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals
- Title(参考訳): Radio2Text:mmWaveラジオ信号を用いたストリーミング音声認識
- Authors: Running Zhao, Jiangtao Yu, Hang Zhao and Edith C.H. Ngai
- Abstract要約: Radio2Textは、13,000語を超える語彙で自動音声認識をストリーミングする最初のmmWaveベースのシステムである。
実験の結果,Radio2Textは文字誤り率5.7%,単語誤り率9.4%を13,000語以上の語彙認識で達成できることがわかった。
- 参考スコア(独自算出の注目度): 35.863485714175496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millimeter wave (mmWave) based speech recognition provides more possibility
for audio-related applications, such as conference speech transcription and
eavesdropping. However, considering the practicality in real scenarios, latency
and recognizable vocabulary size are two critical factors that cannot be
overlooked. In this paper, we propose Radio2Text, the first mmWave-based system
for streaming automatic speech recognition (ASR) with a vocabulary size
exceeding 13,000 words. Radio2Text is based on a tailored streaming Transformer
that is capable of effectively learning representations of speech-related
features, paving the way for streaming ASR with a large vocabulary. To
alleviate the deficiency of streaming networks unable to access entire future
inputs, we propose the Guidance Initialization that facilitates the transfer of
feature knowledge related to the global context from the non-streaming
Transformer to the tailored streaming Transformer through weight inheritance.
Further, we propose a cross-modal structure based on knowledge distillation
(KD), named cross-modal KD, to mitigate the negative effect of low quality
mmWave signals on recognition performance. In the cross-modal KD, the audio
streaming Transformer provides feature and response guidance that inherit
fruitful and accurate speech information to supervise the training of the
tailored radio streaming Transformer. The experimental results show that our
Radio2Text can achieve a character error rate of 5.7% and a word error rate of
9.4% for the recognition of a vocabulary consisting of over 13,000 words.
- Abstract(参考訳): ミリ波(mmWave)に基づく音声認識は、会議音声の書き起こしや盗聴など、音声関連の応用の可能性を高める。
しかし、実際のシナリオにおける実用性を考えると、レイテンシと認識可能な語彙サイズは見過ごせない2つの重要な要素である。
本稿では,語彙サイズが13,000語を超える音声認識(asr)をストリーミングする最初のmmwaveベースシステムであるradio2textを提案する。
radio2textは、音声関連機能の表現を効果的に学習し、大きな語彙でasrをストリーミングする方法を提供する、カスタマイズされたストリーミングトランスフォーマーに基づいている。
本研究では,将来の入力全体にアクセスできないストリーミングネットワークの欠如を軽減するため,非ストリーミングトランスフォーマーから重み付け継承により,グローバルコンテキストに関連する特徴知識の伝達を容易にするガイダンス初期化を提案する。
さらに,低品質mm波信号の認識性能への悪影響を軽減すべく,知識蒸留(kd)に基づくクロスモーダル構造であるクロスモーダルkdを提案する。
クロスモーダルなKDでは、オーディオストリーミングトランスフォーマーは、有能で正確な音声情報を継承する機能および応答ガイダンスを提供し、調整された無線ストリーミングトランスフォーマーのトレーニングを監督する。
実験の結果,13,000語以上の語彙の認識において,radio2textは5.7%の文字誤り率と9.4%の単語誤り率を達成できることがわかった。
関連論文リスト
- Morse Code-Enabled Speech Recognition for Individuals with Visual and Hearing Impairments [0.0]
提案モデルでは,ユーザからの音声を音声認識層に送信し,テキストに変換する。
モース符号変換はプロセスであるため、モデルの精度は音声認識に完全に依存する。
提案されたモデルのWERと精度はそれぞれ10.18%と89.82%と決定される。
論文 参考訳(メタデータ) (2024-07-07T09:54:29Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - Two Stage Contextual Word Filtering for Context bias in Unified
Streaming and Non-streaming Transducer [17.835882045443896]
E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。
本稿では,ストリーミングとストリーミングを併用したE2Eモデルに対して,高品質なコンテキストリストを得るための効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T07:29:26Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Vocoder-free End-to-End Voice Conversion with Transformer Network [5.5792083698526405]
メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。