論文の概要: Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models
- arxiv url: http://arxiv.org/abs/2312.03632v1
- Date: Wed, 6 Dec 2023 17:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:12:50.860575
- Title: Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models
- Title(参考訳): 大規模基礎モデルを用いたマルチモーダルデータと資源効率の高いデバイス指向音声検出
- Authors: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis
Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi
- Abstract要約: トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
- 参考スコア(独自算出の注目度): 43.155061160275196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactions with virtual assistants typically start with a trigger phrase
followed by a command. In this work, we explore the possibility of making these
interactions more natural by eliminating the need for a trigger phrase. Our
goal is to determine whether a user addressed the virtual assistant based on
signals obtained from the streaming audio recorded by the device microphone. We
address this task by combining 1-best hypotheses and decoder signals from an
automatic speech recognition system with acoustic representations from an audio
encoder as input features to a large language model (LLM). In particular, we
are interested in data and resource efficient systems that require only a small
amount of training data and can operate in scenarios with only a single frozen
LLM available on a device. For this reason, our model is trained on 80k or less
examples of multimodal data using a combination of low-rank adaptation and
prefix tuning. We compare the proposed system to unimodal baselines and show
that the multimodal approach achieves lower equal-error-rates (EERs), while
using only a fraction of the training data. We also show that low-dimensional
specialized audio representations lead to lower EERs than high-dimensional
general audio representations.
- Abstract(参考訳): 仮想アシスタントとのインタラクションは通常、トリガーフレーズから始まり、コマンドが続く。
本研究では,トリガー句の必要性を排除し,これらの相互作用をより自然にすることの可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,音声エンコーダからの音響表現を入力特徴として,大言語モデル(llm)に組み合わせることで,この課題を解決する。
特に、少量のトレーニングデータのみを必要とするデータとリソース効率の良いシステムに興味を持ち、デバイス上で利用可能な単一の凍結LDMだけでシナリオで運用できます。
このため,本モデルは低ランク適応とプレフィックスチューニングを組み合わせた80k以下のマルチモーダルデータの例に基づいて訓練されている。
提案手法を単調なベースラインと比較し,トレーニングデータのごく一部を使用しながら,マルチモーダル手法が低い等エラーレート(EER)を実現することを示す。
また,低次元音声表現は高次元音声表現よりもEERが低いことを示す。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。
本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。
我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。
逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文 参考訳(メタデータ) (2023-01-09T08:51:15Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。