論文の概要: Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models
- arxiv url: http://arxiv.org/abs/2312.03632v1
- Date: Wed, 6 Dec 2023 17:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:12:50.860575
- Title: Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models
- Title(参考訳): 大規模基礎モデルを用いたマルチモーダルデータと資源効率の高いデバイス指向音声検出
- Authors: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis
Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
- Abstract要約: トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
- 参考スコア(独自算出の注目度): 43.155061160275196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.
- Abstract(参考訳): 仮想アシスタントとのインタラクションは通常、トリガーフレーズから始まり、コマンドが続く。
本研究では,トリガー句の必要性を排除し,これらの相互作用をより自然にすることの可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,音声エンコーダからの音響表現を入力特徴として,大言語モデル(llm)に組み合わせることで,この課題を解決する。
特に、少量のトレーニングデータのみを必要とするデータとリソース効率の良いシステムに興味を持ち、デバイス上で利用可能な単一の凍結LDMだけでシナリオで運用できます。
このため,本モデルは低ランク適応とプレフィックスチューニングを組み合わせた80k以下のマルチモーダルデータの例に基づいて訓練されている。
提案手法を単調なベースラインと比較し,トレーニングデータのごく一部を使用しながら,マルチモーダル手法が低い等エラーレート(EER)を実現することを示す。
また,低次元音声表現は高次元音声表現よりもEERが低いことを示す。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Towards General-Purpose Speech Abilities for Large Language Models Using
Unpaired Data [26.268670930367097]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
提案モデルでは,音声のプロンプトをテキストの代替として利用し,会話を継続することができる。
カスケードとは違って,本手法では,テキストと音声のモダリティを交換し,会話の先行状況を利用してより良い結果を提供する。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。
本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。
我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。
逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文 参考訳(メタデータ) (2023-01-09T08:51:15Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Streaming on-device detection of device directed speech from voice and
touch-based invocation [12.42440115067583]
デバイス上での音声検出のための音響的偽トリガー除去(FTM)手法を提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)の概念を用いた新たなストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
論文 参考訳(メタデータ) (2021-10-09T22:33:42Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。