論文の概要: Speech Recognition on TV Series with Video-guided Post-Correction
- arxiv url: http://arxiv.org/abs/2506.07323v1
- Date: Sun, 08 Jun 2025 23:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.760927
- Title: Speech Recognition on TV Series with Video-guided Post-Correction
- Title(参考訳): 映像誘導ポストコレクションによるテレビシリーズの音声認識
- Authors: Haoyuan Yang, Yue Zhang, Liqiang Jing,
- Abstract要約: 既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。
本稿では,ビデオから抽出した文脈的手がかりを活用して,ASR転写を改良する多モーダル後補正フレームワークを提案する。
本手法は,テレビシリーズASRのマルチモーダル・ベンチマークで評価し,ASRの性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.736656652049884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) has achieved remarkable success with deep learning, driving advancements in conversational artificial intelligence, media transcription, and assistive technologies. However, ASR systems still struggle in complex environments such as TV series, where overlapping speech, domain-specific terminology, and long-range contextual dependencies pose significant challenges to transcription accuracy. Existing multimodal approaches fail to correct ASR outputs with the rich temporal and contextual information available in video. To address this limitation, we propose a novel multimodal post-correction framework that refines ASR transcriptions by leveraging contextual cues extracted from video. Our framework consists of two stages: ASR Generation and Video-based Post-Correction, where the first stage produces the initial transcript and the second stage corrects errors using Video-based Contextual Information Extraction and Context-aware ASR Correction. We employ the Video-Large Multimodal Model (VLMM) to extract key contextual information using tailored prompts, which is then integrated with a Large Language Model (LLM) to refine the ASR output. We evaluate our method on a multimodal benchmark for TV series ASR and demonstrate its effectiveness in improving ASR performance by leveraging video-based context to enhance transcription accuracy in complex multimedia environments.
- Abstract(参考訳): 音声認識(ASR)は、深層学習、対話型人工知能、メディアの書き起こし、補助技術の発展に成功している。
しかし、ASRシステムはテレビシリーズのような複雑な環境でも苦戦しており、重複する音声、ドメイン固有の用語、長期の文脈依存は精度の転写に重大な課題をもたらす。
既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。
この制限に対処するために,ビデオから抽出した文脈的手がかりを活用して,ASR転写を洗練する新しい多モード後補正フレームワークを提案する。
ASR生成とビデオベースのポストコレクションという2つの段階から構成されており、第1段階は初期転写を生成し、第2段階はビデオベースのコンテキスト情報抽出とコンテキスト対応のASR補正を用いてエラーを修正する。
我々は,ビデオラージマルチモーダルモデル (VLMM) を用いて,調整されたプロンプトを用いてキーコンテキスト情報を抽出し,それをLarge Language Model (LLM) と統合してASR出力を改良する。
我々は,テレビシリーズASRのマルチモーダル・ベンチマークを用いて,映像ベースの文脈を利用して複雑なマルチメディア環境での転写精度を向上させることにより,ASRの性能向上効果を実証する。
関連論文リスト
- TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。
本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文 参考訳(メタデータ) (2025-03-12T06:43:24Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。