論文の概要: Index-MSR: A high-efficiency multimodal fusion framework for speech recognition
- arxiv url: http://arxiv.org/abs/2509.22744v1
- Date: Fri, 26 Sep 2025 03:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.843962
- Title: Index-MSR: A high-efficiency multimodal fusion framework for speech recognition
- Title(参考訳): Index-MSR:音声認識のための高効率マルチモーダル融合フレームワーク
- Authors: Jinming Chen, Lu Wang, Zheshu Song, Wei Deng,
- Abstract要約: Index-MSRは効率的なマルチモーダル音声認識フレームワークである。
MFDは、ビデオからのテキスト関連情報を音声認識に効果的に組み込む。
Index-MSR はソータ精度を実現し,置換誤差を 2050% 削減した。
- 参考スコア(独自算出の注目度): 7.677016652056559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by large scale datasets and LLM based architectures, automatic speech recognition (ASR) systems have achieved remarkable improvements in accuracy. However, challenges persist for domain-specific terminology, and short utterances lacking semantic coherence, where recognition performance often degrades significantly. In this work, we present Index-MSR, an efficient multimodal speech recognition framework. At its core is a novel Multimodal Fusion Decoder (MFD), which effectively incorporates text-related information from videos (e.g., subtitles and presentation slides) into the speech recognition. This cross-modal integration not only enhances overall ASR accuracy but also yields substantial reductions in substitution errors. Extensive evaluations on both an in-house subtitle dataset and a public AVSR dataset demonstrate that Index-MSR achieves sota accuracy, with substitution errors reduced by 20,50%. These results demonstrate that our approach efficiently exploits text-related cues from video to improve speech recognition accuracy, showing strong potential in applications requiring strict audio text synchronization, such as audio translation.
- Abstract(参考訳): 大規模データセットとLLMに基づくアーキテクチャにより、自動音声認識(ASR)システムは精度を大幅に向上した。
しかし、ドメイン固有の用語や、認識性能が著しく低下するセマンティック・コヒーレンスに欠ける短い発話には、課題が持続する。
本研究では,効率的なマルチモーダル音声認識フレームワークであるIndex-MSRを提案する。
コアとなるのはMFD(Multimodal Fusion Decoder)で、ビデオ(字幕、プレゼンテーションスライドなど)からのテキスト関連の情報を音声認識に効果的に組み込む。
このクロスモーダル統合は、全体的なASR精度を高めるだけでなく、置換誤差を大幅に低減させる。
社内の字幕データセットとパブリックなAVSRデータセットの両方に対する大規模な評価は、Index-MSRがソータ精度を達成し、置換誤差が20,50%削減されたことを示している。
これらの結果から,本手法は音声翻訳などの厳密な音声テキスト同期を必要とするアプリケーションにおいて,音声認識精度を向上させるために,映像からのテキスト関連手がかりを効果的に活用できることが示唆された。
関連論文リスト
- FunAudio-ASR Technical Report [89.84148151617022]
本稿では,大容量データ,大容量モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFunAudio-ASRを提案する。
FunAudio-ASRは、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことで、実用的なデプロイメントに特に最適化されている。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Enhancing Speech Emotion Recognition Leveraging Aligning Timestamps of ASR Transcripts and Speaker Diarization [4.1088673993841685]
本稿では,自動音声認識(ASR)と話者ダイアリゼーション(SD)出力のタイムスタンプに基づくアライメントが音声感情認識(SER)精度に与える影響について検討する。
本研究では,事前学習されたASRと話者ダイアリゼーションモデルを利用したアライメントパイプラインを導入し,タイムスタンプを体系的に同期させ,正確なラベル付き話者セグメントを生成する。
論文 参考訳(メタデータ) (2025-07-25T15:05:20Z) - Understanding Zero-shot Rare Word Recognition Improvements Through LLM Integration [0.8702432681310401]
本稿では,大規模言語モデル(LLM)と自動音声認識(ASR)システムの統合について検討する。
分析の結果,LLMはレアワード誤り率(R-WER)の改善に大きく寄与していることが明らかとなった。
広範にわたるアブレーション研究を通じて,LLMの言語能力と音声エンコーダ出力の整合化におけるアダプタ統合の重要性を強調した。
論文 参考訳(メタデータ) (2025-02-22T08:30:38Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。