論文の概要: SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions
- arxiv url: http://arxiv.org/abs/2501.19377v2
- Date: Mon, 03 Feb 2025 17:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:31.269980
- Title: SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions
- Title(参考訳): SELMA:仮想アシスタントインタラクションのための音声認識言語モデル
- Authors: Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Erik Marchi,
- Abstract要約: 仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
- 参考スコア(独自算出の注目度): 48.02083833667388
- License:
- Abstract: In this work, we present and evaluate SELMA, a Speech-Enabled Language Model for virtual Assistant interactions that integrates audio and text as inputs to a Large Language Model (LLM). SELMA is designed to handle three primary and two auxiliary tasks related to interactions with virtual assistants simultaneously within a single end-to-end model. We employ low-rank adaptation modules for parameter-efficient training of both the audio encoder and the LLM. Additionally, we implement a feature pooling strategy enabling the system to recognize global patterns and improve accuracy on tasks less reliant on individual sequence elements. Experimental results on Voice Trigger (VT) detection, Device-Directed Speech Detection (DDSD), and Automatic Speech Recognition (ASR), demonstrate that our approach both simplifies the typical input processing pipeline of virtual assistants significantly and also improves performance compared to dedicated models for each individual task. SELMA yields relative Equal-Error Rate improvements of 64% on the VT detection task, and 22% on DDSD, while also achieving word error rates close to the baseline.
- Abstract(参考訳): 本研究では,音声とテキストを大言語モデル(LLM)の入力として統合する仮想アシスタントインタラクションのための音声変換言語モデルであるSELMAを提示し,評価する。
SELMAは、仮想アシスタントとのインタラクションに関連する3つの一次タスクと2つの補助タスクを、1つのエンドツーエンドモデル内で同時に扱うように設計されている。
我々は低ランク適応モジュールを用いてオーディオエンコーダとLLMの両方のパラメータ効率のトレーニングを行う。
さらに,グローバルなパターンを認識し,個々のシーケンス要素に依存しないタスクの精度を向上させる機能プーリング戦略を実装した。
VT (Voice Trigger) 検出, DDSD (Device-Directed Speech Detection) および自動音声認識 (Automatic Speech Recognition, ASR) による実験結果から, 仮想アシスタントの典型的な入力処理パイプラインを大幅に単純化し, 個々のタスクの専用モデルと比較して性能を向上することを示した。
SELMAは、VT検出タスクで64%、DDSDで22%、単語誤り率でベースラインに近い64%の改善を実現している。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks [3.015760169663536]
複数の音声言語処理タスクを処理可能な統一モデルの開発において,アダプタベースの微調整の可能性を検討する。
アダプタをベースとしたファインチューニングにより、単一エンコーダデコーダモデルにより、平均18.4%の精度で複数の音声処理タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-06-20T21:39:04Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。