論文の概要: Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
- arxiv url: http://arxiv.org/abs/2505.14336v2
- Date: Wed, 21 May 2025 14:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.357644
- Title: Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
- Title(参考訳): LLMベースのAVSRのスケーリングと拡張:プロジェクタアプローチのスパースミックス
- Authors: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti,
- Abstract要約: Llama-SMoPは、推論コストを増大させることなくモデル容量をスケールするためにスパース・ミクチャー・オブ・プロジェクター(SMoP)モジュールを使用している。
ASR、VSR、AVSRタスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 37.690797152736465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、視覚的手がかりを統合することで、ノイズの多い環境におけるロバスト性を高める。
近年の進歩は大規模言語モデル(LLM)をAVSRに統合しているが、その高い計算コストはリソース制約された環境への展開を妨げる。
そこで本稿では,モデルキャパシティのスケールアップにSMOP(Sparse Mixture of Projectors)モジュールを用いた効率的なマルチモーダルLLMであるLlama-SMoPを提案する。
Llama-SMoPは小口径の混合型(MoE)プロジェクタを組み込むことで、より小型のLCMを高い性能を維持しながら使用することができる。
本稿では, 3つのSMoP構成を探索し, ASR, VSR, AVSRタスクにおいて, モダリティ固有のルータとエキスパートを用いたLlama-SMoP DEDR(Disjoint-Experts, Disjoint-Routers)が優れた性能を発揮することを示す。
アブレーション研究は、専門家のアクティベーション、スケーラビリティ、およびノイズの堅牢性において、その効果を確認している。
関連論文リスト
- LLM-DSE: Searching Accelerator Parameters with LLM Agents [34.75581582648836]
LLM-DSEは、HLSディレクティブの最適化に特化したマルチエージェントフレームワークである。
我々の探検家は、ルーター、スペシャリスト、アビテーター、批評家の4人のエージェントを調整します。
LLM-DSEは最先端の手法よりも2.55倍の性能向上を実現している。
論文 参考訳(メタデータ) (2025-05-18T01:31:42Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。
音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。
AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。