論文の概要: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
- arxiv url: http://arxiv.org/abs/2305.12063v1
- Date: Sat, 20 May 2023 02:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:06:32.393909
- Title: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
- Title(参考訳): トリガーレス音声アシスタントのための効率的なマルチモーダルニューラルネットワーク
- Authors: Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan
Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya
- Abstract要約: 本稿では,スマートウォッチ用ニューラルネットワークを用いたマルチモーダルフュージョンシステムを提案する。
このシステムは、音声とジェスチャーデータの時間的相関をよりよく理解し、正確な呼び出しにつながる。
軽量で、スマートウォッチなどの低消費電力デバイスにデプロイ可能で、起動時間も速い。
- 参考スコア(独自算出の注目度): 0.8209843760716959
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The adoption of multimodal interactions by Voice Assistants (VAs) is growing
rapidly to enhance human-computer interactions. Smartwatches have now
incorporated trigger-less methods of invoking VAs, such as Raise To Speak
(RTS), where the user raises their watch and speaks to VAs without an explicit
trigger. Current state-of-the-art RTS systems rely on heuristics and engineered
Finite State Machines to fuse gesture and audio data for multimodal
decision-making. However, these methods have limitations, including limited
adaptability, scalability, and induced human biases. In this work, we propose a
neural network based audio-gesture multimodal fusion system that (1) Better
understands temporal correlation between audio and gesture data, leading to
precise invocations (2) Generalizes to a wide range of environments and
scenarios (3) Is lightweight and deployable on low-power devices, such as
smartwatches, with quick launch times (4) Improves productivity in asset
development processes.
- Abstract(参考訳): 音声アシスタント(VA)によるマルチモーダルインタラクションの採用は、人間とコンピュータのインタラクションを強化するために急速に増加している。
スマートウォッチは、トリガーレスでVAを呼び出す方法が組み込まれている。例えばRising To Speak(RTS)では、ユーザがウォッチを上げて、明示的なトリガーなしでVAに話しかける。
現在の最先端RTSシステムは、マルチモーダルな意思決定のためにジェスチャーと音声データを融合するためにヒューリスティックスと有限状態機械を設計した。
しかし、これらの手法には、適応性、拡張性、人的バイアスの制限など、制限がある。
本研究では,(1)音声とジェスチャーデータの時間的相関をよりよく理解し,正確な呼び出しにつながるニューラルネットワークベースのマルチモーダル融合システムを提案する。(2)幅広い環境やシナリオに一般化する(3)スマートウォッチなどの低消費電力デバイスに軽量で,迅速な起動時間でデプロイできる(4)アセット開発プロセスにおける生産性の向上。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。