Fugu-MT 論文翻訳(概要): A Multimodal Approach to Device-Directed Speech Detection with Large Language Models

論文の概要: A Multimodal Approach to Device-Directed Speech Detection with Large Language Models

arxiv url: http://arxiv.org/abs/2403.14438v2
Date: Tue, 26 Mar 2024 11:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 21:14:52.667746
Title: A Multimodal Approach to Device-Directed Speech Detection with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたデバイス指向音声検出へのマルチモーダルアプローチ
Authors: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi,
Abstract要約: 我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。音声波形から得られた音響情報のみを用いて分類器を訓練する。本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
参考スコア（独自算出の注目度）: 41.37311266840156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactions with virtual assistants typically start with a predefined trigger phrase followed by the user command. To make interactions with the assistant more intuitive, we explore whether it is feasible to drop the requirement that users must begin each command with a trigger phrase. We explore this task in three ways: First, we train classifiers using only acoustic information obtained from the audio waveform. Second, we take the decoder outputs of an automatic speech recognition (ASR) system, such as 1-best hypotheses, as input features to a large language model (LLM). Finally, we explore a multimodal system that combines acoustic and lexical features, as well as ASR decoder signals in an LLM. Using multimodal information yields relative equal-error-rate improvements over text-only and audio-only models of up to 39% and 61%. Increasing the size of the LLM and training with low-rank adaption leads to further relative EER reductions of up to 18% on our dataset.
Abstract（参考訳）: 仮想アシスタントとのインタラクションは通常、事前に定義されたトリガーフレーズから始まり、その後にユーザコマンドが続く。アシスタントとの対話をより直感的にするために、ユーザがトリガーフレーズで各コマンドを起動しなければならないという要求を省くことが可能かどうかを検討する。まず、音声波形から得られた音響情報のみを用いて分類器を訓練する。第2に,大規模言語モデル(LLM)の入力特徴として,1-best仮説などの自動音声認識(ASR)システムのデコーダ出力を用いる。最後に、LLMにおけるASRデコーダ信号と同様に、音響的特徴と語彙的特徴を組み合わせたマルチモーダルシステムについて検討する。マルチモーダル情報を使用することで、テキストのみのモデルとオーディオのみのモデルに対して、最大39%と61%のエラーレートが相対的に向上する。 LLMのサイズを増大させ、低ランク適応によるトレーニングを行うことで、データセット上でEERを最大18%削減することが可能になる。

関連論文リスト

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens [40.95973318669374]
本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。提案手法は,毎秒3.5トークンしか使用せず,WERが0.74%の最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-14T11:31:30Z)
SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文参考訳（メタデータ） (2025-01-31T18:30:36Z)
Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文参考訳（メタデータ） (2024-10-28T19:43:43Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-06T17:29:03Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Streaming Language Identification using Combination of Acoustic Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文参考訳（メタデータ） (2020-06-01T04:08:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。