論文の概要: Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge
- arxiv url: http://arxiv.org/abs/2411.13766v2
- Date: Tue, 26 Nov 2024 05:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:31:01.308435
- Title: Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge
- Title(参考訳): Tiny-Align:エッジ上の音声認識と大規模言語モデル
- Authors: Ruiyang Qin, Dancheng Liu, Gelei Xu, Zheyu Yan, Chenhui Xu, Yuting Hu, X. Sharon Hu, Jinjun Xiong, Yiyu Shi,
- Abstract要約: 大規模言語モデル(LLM)と自動音声認識(ASR)は、ユーザのための音声ベースの対話を可能にする強力なパーソナライズされたアシスタントとして機能する。
既存のASR-LLMモデルは、主に高性能コンピューティング環境で訓練され、かなりのモデル重みを生み出す。
エッジデバイスにASRとLLMをブリッジして、パーソナライズされたオーディオ入力を処理するリソース効率の良いクロスモーダルアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.375350365887535
- License:
- Abstract: The combination of Large Language Models (LLM) and Automatic Speech Recognition (ASR), when deployed on edge devices (called edge ASR-LLM), can serve as a powerful personalized assistant to enable audio-based interaction for users. Compared to text-based interaction, edge ASR-LLM allows accessible and natural audio interactions. Unfortunately, existing ASR-LLM models are mainly trained in high-performance computing environments and produce substantial model weights, making them difficult to deploy on edge devices. More importantly, to better serve users' personalized needs, the ASR-LLM must be able to learn from each distinct user, given that audio input often contains highly personalized characteristics that necessitate personalized on-device training. Since individually fine-tuning the ASR or LLM often leads to suboptimal results due to modality-specific limitations, end-to-end training ensures seamless integration of audio features and language understanding (cross-modal alignment), ultimately enabling a more personalized and efficient adaptation on edge devices. However, due to the complex training requirements and substantial computational demands of existing approaches, cross-modal alignment between ASR audio and LLM can be challenging on edge devices. In this work, we propose a resource-efficient cross-modal alignment framework that bridges ASR and LLMs on edge devices to handle personalized audio input. Our framework enables efficient ASR-LLM alignment on resource-constrained devices like NVIDIA Jetson Orin (8GB RAM), achieving 50x training time speedup while improving the alignment quality by more than 50\%. To the best of our knowledge, this is the first work to study efficient ASR-LLM alignment on resource-constrained edge devices.
- Abstract(参考訳): 大言語モデル(LLM)と自動音声認識(ASR)の組み合わせにより、エッジデバイス(エッジASR-LLMと呼ばれる)にデプロイされると、ユーザのための音声ベースのインタラクションを可能にする強力なパーソナライズされたアシスタントとして機能する。
テキストベースのインタラクションと比較して、エッジASR-LLMはアクセス可能で自然なオーディオインタラクションを可能にする。
残念なことに、既存のASR-LLMモデルは、主に高性能コンピューティング環境で訓練され、相当なモデル重みを生み出すため、エッジデバイスへのデプロイが困難である。
さらに重要なのは、ユーザのパーソナライズされたニーズを満たすために、ASR-LLMは個々のユーザから学ぶことができなければならない。
ASR や LLM を個別に微調整すると、モダリティに特有の制限が生じるため、エンドツーエンドのトレーニングはオーディオ機能と言語理解(モーダルアライメント)のシームレスな統合を保証し、最終的にはエッジデバイスへのよりパーソナライズされ効率的な適応を可能にする。
しかし、既存のアプローチの複雑なトレーニング要件と相当な計算要求のため、エッジデバイスでは、ASRオーディオとLLMの相互アライメントは困難である。
本研究では、エッジデバイスにASRとLLMをブリッジし、パーソナライズされたオーディオ入力を処理するリソース効率の良いクロスモーダルアライメントフレームワークを提案する。
当社のフレームワークでは,NVIDIA Jetson Orin(8GB RAM)などのリソース制約デバイス上でのASR-LLMアライメントを効率よく実現し,トレーニング時間の50倍の高速化を実現し,アライメント品質を50倍以上向上する。
我々の知る限りでは、資源制約されたエッジデバイス上での効率的なASR-LLMアライメントを研究するのはこれが初めてである。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion [0.0]
本稿では,資源制約型ロボットに特化して設計されたハイブリッド音声認識(ASR)システムを提案する。
提案手法は、隠れマルコフモデル(HMM)とディープラーニングモデルを組み合わせて、ソケットプログラミングを利用して処理タスクを効果的に分散する。
このアーキテクチャでは、HMMベースの処理がロボット内で行われ、別のPCがディープラーニングモデルを処理する。
論文 参考訳(メタデータ) (2023-09-11T15:28:19Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。