論文の概要: A low latency ASR-free end to end spoken language understanding system
- arxiv url: http://arxiv.org/abs/2011.04884v1
- Date: Tue, 10 Nov 2020 04:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:30:24.727504
- Title: A low latency ASR-free end to end spoken language understanding system
- Title(参考訳): 低レイテンシ ASR-free end to end 音声言語理解システム
- Authors: Mohamed Mhiri, Samuel Myer, Vikrant Singh Tomar
- Abstract要約: 本研究は,最小レイテンシでマイクロコントローラや組み込みシステム上で動作可能な,フットプリントの少ないシステムを提案する。
ストリーム入力音声信号が与えられた場合,処理時にストリーム全体を保持する必要がなく,セグメント単位で処理することができる。
実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 11.413018142161249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, developing a speech understanding system that classifies a
waveform to structured data, such as intents and slots, without first
transcribing the speech to text has emerged as an interesting research problem.
This work proposes such as system with an additional constraint of designing a
system that has a small enough footprint to run on small micro-controllers and
embedded systems with minimal latency. Given a streaming input speech signal,
the proposed system can process it segment-by-segment without the need to have
the entire stream at the moment of processing. The proposed system is evaluated
on the publicly available Fluent Speech Commands dataset. Experiments show that
the proposed system yields state-of-the-art performance with the advantage of
low latency and a much smaller model when compared to other published works on
the same task.
- Abstract(参考訳): 近年では、まず音声をテキストに書き込むことなく、意図やスロットなどの構造化データに波形を分類する音声理解システムの開発が興味深い研究課題となっている。
本研究は,小型マイクロコントローラや組込みシステム上で,最小レイテンシで動作可能なフットプリントの少ないシステムの設計に制約を加えたシステムを提案する。
ストリーミング入力音声信号が与えられると、提案するシステムは、処理の瞬間にストリーム全体を保持することなく、セグメント毎の処理を行うことができる。
提案システムは,公開可能なfluent speech commandデータセット上で評価される。
実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。
関連論文リスト
- Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency [44.99833362998488]
遅延とは、音声入力から対応する話者ラベルの出力までの時間である。
DIART-pipeline では、埋め込みモデルである pyannote/embedding で最低レイテンシを実現する。
FS-EENDシステムも同様に優れたレイテンシを示している。
論文 参考訳(メタデータ) (2024-07-05T06:54:27Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Efficient Speech Quality Assessment using Self-supervised Framewise
Embeddings [13.12010504777376]
音声品質評価は、音声研究者、開発者、言語病理学者、システム品質エンジニアにとって不可欠である。
現在の最先端システムは、時間依存モデリングと組み合わせたフレームワイズ音声特徴(手動または学習可能な)に基づいている。
本稿では,ConferenceSpeech 2022 Challengeにおいて,最高のパフォーマンスモデルに匹敵する効率のよいシステムを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:57:08Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。