論文の概要: SpeechLLM: Unified Speech and Language Model for Enhanced Multi-Task Understanding in Low Resource Settings
- arxiv url: http://arxiv.org/abs/2509.04473v1
- Date: Fri, 29 Aug 2025 22:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.309816
- Title: SpeechLLM: Unified Speech and Language Model for Enhanced Multi-Task Understanding in Low Resource Settings
- Title(参考訳): SpeechLLM:低資源環境におけるマルチタスク理解のための統一音声と言語モデル
- Authors: Jaekwon Yoo, Kunal Chandiramani, Divya Tadimeti, Abenezer Girma, Chandra Dhir,
- Abstract要約: 音声の埋め込みをLLM互換トークンに変換するパラメータ効率のよいアダプタを用いた解を提案する。
我々は、エンドツーエンド自動音声認識(ASR)、名前付きエンティティ認識(NER)、感情分析(SA)に焦点を当てる。
提案したアダプタは、トレーニング可能なパラメータを7倍少なくして、大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 1.6882236110408633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While integrating speech encoder with LLM requires substantial data and resources, use cases face limitations due to insufficient availability. To address this, we propose a solution with a parameter-efficient adapter that converts speech embeddings into LLM-compatible tokens, focusing on end-to-end automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). To reduce labeling costs, we employ an LLM-based synthetic dataset annotation technique. The proposed adapter, using 7x fewer trainable parameters, achieves significant performance gains: a 26% relative Word Error Rates (WER) improvement on the LibriSpeech ASR task, a 6.3% relative F1 score increase on the NER task, and a 32% relative F1 score boost on the SA task. Moreover, using advanced techniques such as adding a classifier regularizer and optimizing the LLM with Low-Rank Adaptation (LoRA) yields notable performance gains, with Spoken Language Understanding Evaluation (SLUE) score improvement of 6.6% and 9.5%
- Abstract(参考訳): LLMと音声エンコーダを統合するには、かなりのデータとリソースが必要であるが、使用例は可用性が不十分なため制限に直面している。
そこで本研究では,音声埋め込みをLLM互換トークンに変換するパラメータ効率のよいアダプタを,エンドツーエンドの自動音声認識(ASR),名前付きエンティティ認識(NER),感情分析(SA)に焦点をあてて提案する。
ラベル付けコストを削減するために,LLMに基づく合成データセットアノテーション技術を用いる。
提案したアダプタは、トレーニング可能なパラメータを7倍少なくして、LibriSpeech ASRタスクで26%のワードエラー率(WER)の改善、NERタスクで6.3%の相対F1スコア増加、SAタスクで32%の相対F1スコアアップを実現している。
さらに、分類器正規化器の追加やローランド適応(LoRA)によるLLMの最適化といった高度な手法を用いることで、Spoken Language Understanding Evaluation(SLUE)スコアは6.6%、9.5%向上した。
関連論文リスト
- MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens [40.95973318669374]
本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法は,毎秒3.5トークンしか使用せず,WERが0.72%の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-14T11:31:30Z) - Understanding Zero-shot Rare Word Recognition Improvements Through LLM Integration [0.8702432681310401]
本稿では,大規模言語モデル(LLM)と自動音声認識(ASR)システムの統合について検討する。
分析の結果,LLMはレアワード誤り率(R-WER)の改善に大きく寄与していることが明らかとなった。
広範にわたるアブレーション研究を通じて,LLMの言語能力と音声エンコーダ出力の整合化におけるアダプタ統合の重要性を強調した。
論文 参考訳(メタデータ) (2025-02-22T08:30:38Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。