論文の概要: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
- arxiv url: http://arxiv.org/abs/2305.12063v1
- Date: Sat, 20 May 2023 02:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:06:32.393909
- Title: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
- Title(参考訳): トリガーレス音声アシスタントのための効率的なマルチモーダルニューラルネットワーク
- Authors: Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan
Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya
- Abstract要約: 本稿では,スマートウォッチ用ニューラルネットワークを用いたマルチモーダルフュージョンシステムを提案する。
このシステムは、音声とジェスチャーデータの時間的相関をよりよく理解し、正確な呼び出しにつながる。
軽量で、スマートウォッチなどの低消費電力デバイスにデプロイ可能で、起動時間も速い。
- 参考スコア(独自算出の注目度): 0.8209843760716959
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The adoption of multimodal interactions by Voice Assistants (VAs) is growing
rapidly to enhance human-computer interactions. Smartwatches have now
incorporated trigger-less methods of invoking VAs, such as Raise To Speak
(RTS), where the user raises their watch and speaks to VAs without an explicit
trigger. Current state-of-the-art RTS systems rely on heuristics and engineered
Finite State Machines to fuse gesture and audio data for multimodal
decision-making. However, these methods have limitations, including limited
adaptability, scalability, and induced human biases. In this work, we propose a
neural network based audio-gesture multimodal fusion system that (1) Better
understands temporal correlation between audio and gesture data, leading to
precise invocations (2) Generalizes to a wide range of environments and
scenarios (3) Is lightweight and deployable on low-power devices, such as
smartwatches, with quick launch times (4) Improves productivity in asset
development processes.
- Abstract(参考訳): 音声アシスタント(VA)によるマルチモーダルインタラクションの採用は、人間とコンピュータのインタラクションを強化するために急速に増加している。
スマートウォッチは、トリガーレスでVAを呼び出す方法が組み込まれている。例えばRising To Speak(RTS)では、ユーザがウォッチを上げて、明示的なトリガーなしでVAに話しかける。
現在の最先端RTSシステムは、マルチモーダルな意思決定のためにジェスチャーと音声データを融合するためにヒューリスティックスと有限状態機械を設計した。
しかし、これらの手法には、適応性、拡張性、人的バイアスの制限など、制限がある。
本研究では,(1)音声とジェスチャーデータの時間的相関をよりよく理解し,正確な呼び出しにつながるニューラルネットワークベースのマルチモーダル融合システムを提案する。(2)幅広い環境やシナリオに一般化する(3)スマートウォッチなどの低消費電力デバイスに軽量で,迅速な起動時間でデプロイできる(4)アセット開発プロセスにおける生産性の向上。
関連論文リスト
- Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。