論文の概要: MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2502.10447v1
- Date: Tue, 11 Feb 2025 11:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:00.946492
- Title: MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition
- Title(参考訳): MoHAVE:ロバスト音声認識のための階層型オーディオビジュアルエキスパートの混合
- Authors: Sungnyun Kim, Kangwook Jang, Sangmin Bae, Sungwoo Cho, Se-Young Yun,
- Abstract要約: MoHAVE(Mixture of Hierarchical Audio-Visual Experts)は、スケーラビリティの制約に対処するために設計された、新しい堅牢なAVSRフレームワークである。
MoHAVEは、モダリティ固有の専門家グループを活性化し、計算オーバーヘッドを最小限にした様々なオーディオ視覚入力への動的適応を保証する。
- 参考スコア(独自算出の注目度): 23.406334722946163
- License:
- Abstract: Audio-visual speech recognition (AVSR) has become critical for enhancing speech recognition in noisy environments by integrating both auditory and visual modalities. However, existing AVSR systems struggle to scale up without compromising computational efficiency. In this study, we introduce MoHAVE (Mixture of Hierarchical Audio-Visual Experts), a novel robust AVSR framework designed to address these scalability constraints. By leveraging a Mixture-of-Experts (MoE) architecture, MoHAVE activates modality-specific expert groups, ensuring dynamic adaptation to various audio-visual inputs with minimal computational overhead. Key contributions of MoHAVE include: (1) a sparse MoE framework that efficiently scales AVSR model capacity, (2) a hierarchical gating mechanism that dynamically utilizes the expert groups based on input context, enhancing adaptability and robustness, and (3) remarkable performance across robust AVSR benchmarks, including LRS3 and MuAViC transcription and translation tasks, setting a new standard for scalable speech recognition systems.
- Abstract(参考訳): 音声・視覚音声認識(AVSR)は,聴覚と視覚の両モードを統合することで,雑音の多い環境下での音声認識の強化に欠かせないものとなっている。
しかし、既存のAVSRシステムは計算効率を損なうことなくスケールアップに苦慮している。
本研究では,これらの拡張性制約に対処する新しい堅牢なAVSRフレームワークであるMoHAVE(Mixture of Hierarchical Audio-Visual Experts)を紹介する。
Mixture-of-Experts (MoE)アーキテクチャを利用することで、MoHAVEはモダリティ固有の専門家グループを活性化し、計算オーバーヘッドを最小限にした様々なオーディオ視覚入力への動的適応を保証する。
MoHAVE の主な貢献は,(1) AVSR モデルのキャパシティを効率的にスケールする疎らな MoE フレームワーク,(2) 入力コンテキストに基づいて専門家グループを動的に活用する階層的ゲーティング機構,(3) LRS3 や MuAViC の転写および翻訳タスクを含む堅牢な AVSR ベンチマークにおける顕著なパフォーマンス,そして,スケーラブルな音声認識システムのための新しい標準の設定である。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。