論文の概要: Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07253v1
- Date: Mon, 10 Nov 2025 16:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.354132
- Title: Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
- Title(参考訳): Omni-AVSR:大規模言語モデルを用いた統合マルチモーダル音声認識を目指して
- Authors: Umberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic,
- Abstract要約: 大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
- 参考スコア(独自算出の注目度): 34.15708407614003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently achieved impressive results in speech recognition across multiple modalities, including Auditory Speech Recognition (ASR), Visual Speech Recognition (VSR), and Audio-Visual Speech Recognition (AVSR). Despite this progress, current LLM-based approaches typically address each task independently, training separate models that raise computational and deployment resource use while missing potential cross-task synergies. They also rely on fixed-rate token compression, which restricts flexibility in balancing accuracy with efficiency. These limitations highlight the need for a unified framework that can support ASR, VSR, and AVSR while enabling elastic inference. To this end, we present Omni-AVSR, a unified audio-visual LLM that combines efficient multi-granularity training with parameter-efficient adaptation. Specifically, we adapt the matryoshka representation learning paradigm to efficiently train across multiple audio and visual granularities, reducing its inherent training resource use. Furthermore, we explore three LoRA-based strategies for adapting the backbone LLM, balancing shared and task-specific specialization. Experiments on LRS2 and LRS3 show that Omni-AVSR achieves comparable or superior accuracy to state-of-the-art baselines while training a single model at substantially lower training and deployment resource use. The model also remains robust under acoustic noise, and we analyze its scaling behavior as LLM size increases, providing insights into the trade-off between performance and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、聴覚音声認識(ASR)、視覚音声認識(VSR)、音声-視覚音声認識(AVSR)など、複数のモードにわたる音声認識において印象的な成果を上げている。
この進歩にもかかわらず、現在のLLMベースのアプローチは、通常、各タスクに独立して対処し、計算資源とデプロイメントリソースの使用を増加させる個別のモデルを訓練し、潜在的なタスク間のシナジーを欠いている。
彼らはまた、精度と効率のバランスの柔軟性を制限する固定レートトークン圧縮にも依存している。
これらの制限は、弾性推論を可能にしながら、ASR、VSR、AVSRをサポートする統合フレームワークの必要性を強調している。
この目的のために,効率の良いマルチグラニュラリティトレーニングとパラメータ効率の適応を組み合わせた統合オーディオ視覚LLMであるOmni-AVSRを提案する。
具体的には,maryoshka表現学習パラダイムを適用して,複数のオーディオや視覚的粒度を効果的に学習し,その固有のトレーニングリソースの使用を減らした。
さらに、バックボーンLLMの適応、共有化とタスク固有の特殊化のバランスをとるための3つのLoRAベースの戦略について検討する。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインに匹敵するあるいは優れた精度を達成し、訓練や配備リソースの使用が大幅に少ない単一モデルを訓練している。
モデルはまた、音響雑音下でも頑健であり、LLMのサイズが大きくなるにつれてスケーリングの挙動を解析し、性能と効率のトレードオフに関する洞察を与える。
関連論文リスト
- Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。