論文の概要: Speech Recognition on TV Series with Video-guided Post-Correction
- arxiv url: http://arxiv.org/abs/2506.07323v1
- Date: Sun, 08 Jun 2025 23:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.760927
- Title: Speech Recognition on TV Series with Video-guided Post-Correction
- Title(参考訳): 映像誘導ポストコレクションによるテレビシリーズの音声認識
- Authors: Haoyuan Yang, Yue Zhang, Liqiang Jing,
- Abstract要約: 既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。
本稿では,ビデオから抽出した文脈的手がかりを活用して,ASR転写を改良する多モーダル後補正フレームワークを提案する。
本手法は,テレビシリーズASRのマルチモーダル・ベンチマークで評価し,ASRの性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.736656652049884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) has achieved remarkable success with deep learning, driving advancements in conversational artificial intelligence, media transcription, and assistive technologies. However, ASR systems still struggle in complex environments such as TV series, where overlapping speech, domain-specific terminology, and long-range contextual dependencies pose significant challenges to transcription accuracy. Existing multimodal approaches fail to correct ASR outputs with the rich temporal and contextual information available in video. To address this limitation, we propose a novel multimodal post-correction framework that refines ASR transcriptions by leveraging contextual cues extracted from video. Our framework consists of two stages: ASR Generation and Video-based Post-Correction, where the first stage produces the initial transcript and the second stage corrects errors using Video-based Contextual Information Extraction and Context-aware ASR Correction. We employ the Video-Large Multimodal Model (VLMM) to extract key contextual information using tailored prompts, which is then integrated with a Large Language Model (LLM) to refine the ASR output. We evaluate our method on a multimodal benchmark for TV series ASR and demonstrate its effectiveness in improving ASR performance by leveraging video-based context to enhance transcription accuracy in complex multimedia environments.
- Abstract(参考訳): 音声認識(ASR)は、深層学習、対話型人工知能、メディアの書き起こし、補助技術の発展に成功している。
しかし、ASRシステムはテレビシリーズのような複雑な環境でも苦戦しており、重複する音声、ドメイン固有の用語、長期の文脈依存は精度の転写に重大な課題をもたらす。
既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。
この制限に対処するために,ビデオから抽出した文脈的手がかりを活用して,ASR転写を洗練する新しい多モード後補正フレームワークを提案する。
ASR生成とビデオベースのポストコレクションという2つの段階から構成されており、第1段階は初期転写を生成し、第2段階はビデオベースのコンテキスト情報抽出とコンテキスト対応のASR補正を用いてエラーを修正する。
我々は,ビデオラージマルチモーダルモデル (VLMM) を用いて,調整されたプロンプトを用いてキーコンテキスト情報を抽出し,それをLarge Language Model (LLM) と統合してASR出力を改良する。
我々は,テレビシリーズASRのマルチモーダル・ベンチマークを用いて,映像ベースの文脈を利用して複雑なマルチメディア環境での転写精度を向上させることにより,ASRの性能向上効果を実証する。
関連論文リスト
- Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM [12.005825075325234]
本稿では,テキストおよび音声に基づく大規模言語モデルによる後処理を用いたマルチASRプロンプト駆動フレームワークを提案する。
従来の方法と比較して,転写精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-06-05T12:35:53Z) - TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。
本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文 参考訳(メタデータ) (2025-03-12T06:43:24Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。