Fugu-MT 論文翻訳(概要): Efficient Multimodal Neural Networks for Trigger-less Voice Assistants

論文の概要: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants

arxiv url: http://arxiv.org/abs/2305.12063v1
Date: Sat, 20 May 2023 02:52:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 01:06:32.393909
Title: Efficient Multimodal Neural Networks for Trigger-less Voice Assistants
Title（参考訳）: トリガーレス音声アシスタントのための効率的なマルチモーダルニューラルネットワーク
Authors: Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya
Abstract要約: 本稿では,スマートウォッチ用ニューラルネットワークを用いたマルチモーダルフュージョンシステムを提案する。このシステムは、音声とジェスチャーデータの時間的相関をよりよく理解し、正確な呼び出しにつながる。軽量で、スマートウォッチなどの低消費電力デバイスにデプロイ可能で、起動時間も速い。
参考スコア（独自算出の注目度）: 0.8209843760716959
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The adoption of multimodal interactions by Voice Assistants (VAs) is growing rapidly to enhance human-computer interactions. Smartwatches have now incorporated trigger-less methods of invoking VAs, such as Raise To Speak (RTS), where the user raises their watch and speaks to VAs without an explicit trigger. Current state-of-the-art RTS systems rely on heuristics and engineered Finite State Machines to fuse gesture and audio data for multimodal decision-making. However, these methods have limitations, including limited adaptability, scalability, and induced human biases. In this work, we propose a neural network based audio-gesture multimodal fusion system that (1) Better understands temporal correlation between audio and gesture data, leading to precise invocations (2) Generalizes to a wide range of environments and scenarios (3) Is lightweight and deployable on low-power devices, such as smartwatches, with quick launch times (4) Improves productivity in asset development processes.
Abstract（参考訳）: 音声アシスタント(VA)によるマルチモーダルインタラクションの採用は、人間とコンピュータのインタラクションを強化するために急速に増加している。スマートウォッチは、トリガーレスでVAを呼び出す方法が組み込まれている。例えばRising To Speak(RTS)では、ユーザがウォッチを上げて、明示的なトリガーなしでVAに話しかける。現在の最先端RTSシステムは、マルチモーダルな意思決定のためにジェスチャーと音声データを融合するためにヒューリスティックスと有限状態機械を設計した。しかし、これらの手法には、適応性、拡張性、人的バイアスの制限など、制限がある。本研究では,(1)音声とジェスチャーデータの時間的相関をよりよく理解し,正確な呼び出しにつながるニューラルネットワークベースのマルチモーダル融合システムを提案する。(2)幅広い環境やシナリオに一般化する(3)スマートウォッチなどの低消費電力デバイスに軽量で,迅速な起動時間でデプロイできる(4)アセット開発プロセスにおける生産性の向上。

関連論文リスト

Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition [17.451829471077858]
Cued Speech (CS) は、唇読取と手話による視覚コミュニケーションシステムであり、聴覚障害のある個人のためのコミュニケーションを容易にする。自動CS認識(ACSR)は、CSハンドジェスチャと唇の動きをAI駆動方式でテキストに変換することを目的としている。本稿では,ACSRのための協調型マルチエージェントシステムCued-Agentを提案する。
論文参考訳（メタデータ） (2025-08-01T07:40:39Z)
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。 MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。 4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文参考訳（メタデータ） (2025-05-06T17:59:53Z)
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。 Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文参考訳（メタデータ） (2025-05-05T15:05:01Z)
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。 1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文参考訳（メタデータ） (2025-02-17T15:58:56Z)
Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文参考訳（メタデータ） (2025-01-26T02:19:03Z)
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。 Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文参考訳（メタデータ） (2024-12-12T17:50:39Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。音声波形から得られた音響情報のみを用いて分類器を訓練する。本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文参考訳（メタデータ） (2024-03-21T14:44:03Z)
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文参考訳（メタデータ） (2024-01-31T05:20:29Z)
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-06T17:29:03Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文参考訳（メタデータ） (2022-10-11T00:15:45Z)
TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文参考訳（メタデータ） (2022-03-17T05:49:35Z)
Event Based Time-Vectors for auditory features extraction: a neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文参考訳（メタデータ） (2021-12-13T21:08:04Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。