論文の概要: MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
- arxiv url: http://arxiv.org/abs/2503.11315v1
- Date: Fri, 14 Mar 2025 11:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:35.363397
- Title: MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
- Title(参考訳): MMS-LLaMA:最小マルチモーダル音声トークンを用いたLLMに基づく高能率音声認識
- Authors: Jeong Hun Yeo, Hyeongseop Rha, Se Jin Park, Yong Man Ro,
- Abstract要約: 本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法は,毎秒3.5トークンしか使用せず,WERが0.74%の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 40.95973318669374
- License:
- Abstract: Audio-Visual Speech Recognition (AVSR) achieves robust speech recognition in noisy environments by combining auditory and visual information. However, recent Large Language Model (LLM) based AVSR systems incur high computational costs due to the high temporal resolution of audio-visual speech processed by LLMs. In this work, we introduce an efficient multimodal speech LLM framework that minimizes token length while preserving essential linguistic content. Our approach employs an early av-fusion module for streamlined feature integration, an audio-visual speech Q-Former that dynamically allocates tokens based on input duration, and a refined query allocation strategy with a speech rate predictor to adjust token allocation according to speaking speed of each audio sample. Extensive experiments on the LRS3 dataset show that our method achieves state-of-the-art performance with a WER of 0.74% while using only 3.5 tokens per second. Moreover, our approach not only reduces token usage by 86% compared to the previous multimodal speech LLM framework, but also improves computational efficiency by reducing FLOPs by 35.7%.
- Abstract(参考訳): 音声・視覚音声認識(AVSR)は,聴覚情報と視覚情報を組み合わせることで,雑音の多い環境下で頑健な音声認識を実現する。
しかし、最近のLarge Language Model (LLM)ベースのAVSRシステムは、LLMによって処理される音声・視覚音声の時間分解能が高いため、高い計算コストがかかる。
本研究では,重要な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法では,機能統合の合理化のための早期av-fusionモジュール,入力時間に基づいてトークンを動的に割り当てる音声視覚音声Q-Former,音声サンプルの発声速度に応じてトークン割り当てを調整するために,音声レート予測器を用いた改良されたクエリアロケーション戦略を用いる。
LRS3データセットの大規模な実験により,WERが0.74%,毎秒3.5トークンしか使用せず,最先端の性能を達成できた。
さらに,従来のマルチモーダル音声LLMフレームワークと比較してトークン使用率を86%削減するだけでなく,FLOPを35.7%削減することで計算効率を向上する。
関連論文リスト
- Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Learning Audio Representations with MLPs [2.0418546897282095]
本稿では,タイムスタンプとシーンレベルのオーディオ埋め込みを効率よく学習する手法を提案する。
逐次的に積み重ねられたゲートブロックからなるエンコーダを用いて、2次元MFCCを入力として受け入れる。
また、タイムスタンプ埋め込みからシーンレベルの埋め込みを計算するための簡単な時間的アルゴリズムも提供する。
論文 参考訳(メタデータ) (2022-03-16T09:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。