論文の概要: OCR-Enhanced Multimodal ASR Can Read While Listening
- arxiv url: http://arxiv.org/abs/2601.18393v1
- Date: Mon, 26 Jan 2026 11:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.805075
- Title: OCR-Enhanced Multimodal ASR Can Read While Listening
- Title(参考訳): OCR強化マルチモーダルASRは聴きながら読むことができる
- Authors: Junli Chen, Changli Tang, Yixuan Li, Guangzhi Sun, Chao Zhang,
- Abstract要約: Donut-Whisperは、英語と中国語の音声認識性能を改善するために、視覚情報を活用するデュアルエンコーダを備えたオーディオ視覚型ASRモデルである。
中国語と英語の両方の分割を含む映画クリップをベースとした,多言語音声・視覚音声認識データセットを提案する。
Donut-Whisperは、DonutとWhisperの大きなV3ベースラインと比較して、データセットの英語と中国語のパーティションで大幅にパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 30.485215851341874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual information, such as subtitles in a movie, often helps automatic speech recognition. In this paper, we propose Donut-Whisper, an audio-visual ASR model with dual encoder to leverage visual information to improve speech recognition performance in both English and Chinese. Donut-Whisper combines the advantage of the linear and the Q-Former-based modality alignment structures via a cross-attention module, generating more powerful audio-visual features. Meanwhile, we propose a lightweight knowledge distillation scheme showcasing the potential of using audio-visual models to teach audio-only models to achieve better performance. Moreover, we propose a new multilingual audio-visual speech recognition dataset based on movie clips containing both Chinese and English partitions. As a result, Donut-Whisper achieved significantly better performance on both English and Chinese partition of the dataset compared to both Donut and Whisper large V3 baselines. In particular, an absolute 5.75% WER reduction and a 16.5% absolute CER reduction were achieved on the English and Chinese sets respectively compared to the Whisper ASR baseline.
- Abstract(参考訳): 映画の字幕などの視覚情報は、しばしば自動音声認識に役立つ。
本稿では,2つのエンコーダを持つ音声視覚型ASRモデルであるDonut-Whisperを提案する。
Donut-Whisperは、線形とQ-Formerベースのモダリティアライメント構造をクロスアテンションモジュールを通じて組み合わせ、より強力なオーディオ視覚機能を生成する。
一方,本研究では,音声のみのモデルを用いて,より良い性能を実現するための知識蒸留手法を提案する。
さらに,中国語と英語の分割を含む映像クリップをベースとした,多言語音声・視覚音声認識データセットを提案する。
その結果、Donut-Whisperは、DonutとWhisperの大きなV3ベースラインと比較して、データセットの英語と中国語のパーティションで大幅にパフォーマンスが向上した。
特に、WERの絶対5.75%の削減とCERの絶対16.5%の削減は、Whisper ASRベースラインと比較してそれぞれ英語と中国語セットで達成された。
関連論文リスト
- mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition [31.824116269818564]
マルチリンガル音声認識のためのmWhisper-Flamingoを提案する。
事前訓練されたオーディオモデル(Whisper)とビデオモデル(AV-HuBERT)の長所を組み合わせる。
オーディオヴィジュアルのmWhisper-Flamingoは、ノイズの多い条件下で、すべての言語でオーディオのみのWhisperを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-03T17:29:52Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。