論文の概要: FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model
- arxiv url: http://arxiv.org/abs/2410.03007v1
- Date: Thu, 3 Oct 2024 21:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:35:40.308766
- Title: FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model
- Title(参考訳): FastAdaSP:大規模言語モデルのためのマルチタスク適応型効率的な推論
- Authors: Yichen Lu, Jiaqi Song, Chao-Han Huck Yang, Shinji Watanabe,
- Abstract要約: 各種音声関連タスクに特化して設計された重み付きトークンマージフレームワークであるFastAdaSPを提案する。
FastAdaSPは、感情認識(ER)や音声質問応答(SQA)といったタスクを劣化させることなく、7倍のメモリ効率と1.83倍の復号スループットを達成した。
- 参考スコア(独自算出の注目度): 43.521309754325685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we aim to explore Multitask Speech Language Model (SpeechLM) efficient inference via token reduction. Unlike other modalities such as vision or text, speech has unique temporal dependencies, making previous efficient inference works on other modalities not directly applicable. Furthermore, methods for efficient SpeechLM inference on long sequence and sparse signals remain largely unexplored. Then we propose FastAdaSP, a weighted token merging framework specifically designed for various speech-related tasks to improve the trade-off between efficiency and performance. Experimental results on WavLLM and Qwen-Audio show that our method achieves the state-of-the-art (SOTA) efficiency-performance trade-off compared with other baseline methods. Specifically, FastAdaSP achieved 7x memory efficiency and 1.83x decoding throughput without any degradation on tasks like Emotion Recognition (ER) and Spoken Question Answering (SQA). The code will be available at https://github.com/yichen14/FastAdaSP
- Abstract(参考訳): 本研究では,トークン還元によるマルチタスク音声言語モデル(SpeechLM)の効率的な推論を提案する。
視覚やテキストのような他のモダリティとは異なり、音声は独自の時間的依存を持ち、以前の効率的な推論は直接適用されない他のモダリティに作用する。
さらに、長いシーケンスとスパース信号に対する効率的なSpeechLM推定法はほとんど未探索のままである。
次に,FastAdaSPを提案する。FastAdaSPは,効率と性能のトレードオフを改善するために,様々な音声関連タスクに特化して設計された重み付きトークンマージフレームワークである。
WavLLM と Qwen-Audio の実験結果から,本手法は他のベースライン法と比較してSOTA (State-of-the-art- performance trade-off) を実現することが示された。
具体的には、FastAdaSPは、感情認識(ER)や音声質問応答(SQA)といったタスクを劣化させることなく、7倍のメモリ効率と1.83倍の復号スループットを達成した。
コードはhttps://github.com/yichen14/FastAdaSPで入手できる。
関連論文リスト
- PALM: Few-Shot Prompt Learning for Audio Language Models [1.6177972328875514]
音声言語モデル(ALM)は近年,ゼロショット音声認識タスクにおいて顕著な成功を収めている。
本稿では,テキストエンコーダブランチの機能空間を最適化する新しい手法であるPrompt Learning in Audio Language Models (PALM)を提案する。
本研究では,11の音声認識データセットに対するアプローチの有効性を実証し,その結果と3つのベースラインを数ショットの学習設定で比較する。
論文 参考訳(メタデータ) (2024-09-29T22:06:07Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition [17.59356583727259]
音声感情認識(SER)はその幅広い応用により注目を集めている。
我々は,textscAfterと呼ばれる,SERのためのアクティブラーニング(AL)に基づく微調整フレームワークを提案する。
提案手法は精度を8.45%向上し,時間消費を79%削減する。
論文 参考訳(メタデータ) (2024-05-01T04:05:29Z) - EEE-QA: Exploring Effective and Efficient Question-Answer
Representations [7.764629726412793]
疑問に答えるための現在のアプローチは、RoBERTaのような事前訓練された言語モデル(PLM)に依存している。
この研究は、既存の質問応答符号化規約に挑戦し、より微細な表現を探求する。
論文 参考訳(メタデータ) (2024-03-04T16:21:13Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。