論文の概要: MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2510.04136v1
- Date: Sun, 05 Oct 2025 10:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.481972
- Title: MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
- Title(参考訳): MoME:音声・視覚音声認識のためのマトリルシュカエキスパートの混在
- Authors: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic,
- Abstract要約: Matryoshka Expression Learning (MRL)は、単一のモデルを複数のトークンの粒度にわたって動作させることによって、この問題に対処する。
MoME は MRL をベースとした音声認識用大規模言語モデルにスパース・ミックス・オブ・エクササイズ (MoE) を統合する新しいフレームワークである。
MoME は AVSR 、 ASR 、 VSR のタスクにまたがって最先端のパフォーマンスを実現するが、パラメータは大幅に少ない。
- 参考スコア(独自算出の注目度): 39.90876258237132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,音声・視覚音声認識(AVSR)において大きな可能性を秘めている。
トークン圧縮法は、推論コストを削減することができるが、事前に圧縮率を固定し、単一の固定長出力を生成する必要があり、推論時に情報密度と効率のバランスをとる柔軟性がない。
Matryoshka Expression Learning (MRL)は、複数のトークンの粒度にまたがって単一のモデルを動作させ、圧縮率を動的に調整可能にすることで、この問題に対処する。
しかし、現在のMRLベースの手法は、訓練中に個々のスケールを独立に扱い、クロススケールの一般化、高い圧縮時の堅牢性、解釈可能性を制限する。
これらの制約を克服するため, MRL をベースとした AVSR 用 LLM に, MME (Mixture of Matryoshka Experts) を組み込んだ新しいフレームワークを提案する。
MoMEは、トップkルートと共有の専門家による凍結LDMを強化し、スケールとモダリティをまたいだ動的キャパシティ割り当てを可能にする。
共有ルータは、粒度をまたいだ一貫したエキスパートアクティベーションを促進し、圧縮シーケンスを低圧縮で学習した表現の恩恵を受けることができる。
LRS2 と LRS3 の実験では、MoME は AVSR 、 ASR 、 VSR のタスクにまたがって最先端の性能を実現し、パラメータを著しく少なくし、ノイズ下で頑健性を維持する。
MoMEは、MRLの適応性とMoEの効率を統一し、リソース認識音声認識のためのスケーラブルで解釈可能なソリューションを提供する。
関連論文リスト
- Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs [3.808154352665581]
マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を実現する新しいフレームワークを提案する。
提案手法は,複数のベンチマークデータセットにまたがるLCMの推論能力を一貫して向上させることを実証する。
提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。
論文 参考訳(メタデータ) (2025-01-26T21:05:16Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。