Fugu-MT 論文翻訳(概要): Speech Recognition on TV Series with Video-guided Post-ASR Correction

論文の概要: Speech Recognition on TV Series with Video-guided Post-ASR Correction

arxiv url: http://arxiv.org/abs/2506.07323v2
Date: Sun, 21 Sep 2025 20:56:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:15.650756
Title: Speech Recognition on TV Series with Video-guided Post-ASR Correction
Title（参考訳）: 映像誘導ポストASR補正によるテレビシリーズの音声認識
Authors: Haoyuan Yang, Yue Zhang, Liqiang Jing, John H. L. Hansen,
Abstract要約: 本稿では、ビデオコンテキストをキャプチャし、ASR出力を洗練するためのVPC(Video-Guided Post-ASR Correction)フレームワークを提案する。本手法は複雑なマルチメディア環境における転写精度を常に向上させる。
参考スコア（独自算出の注目度）: 38.54083871956027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Speech Recognition (ASR) has achieved remarkable success with deep learning, driving advancements in conversational artificial intelligence, media transcription, and assistive technologies. However, ASR systems still struggle in complex environments such as TV series, where multiple speakers, overlapping speech, domain-specific terminology, and long-range contextual dependencies pose significant challenges to transcription accuracy. Existing approaches fail to explicitly leverage the rich temporal and contextual information available in the video. To address this limitation, we propose a Video-Guided Post-ASR Correction (VPC) framework that uses a Video-Large Multimodal Model (VLMM) to capture video context and refine ASR outputs. Evaluations on a TV-series benchmark show that our method consistently improves transcription accuracy in complex multimedia environments.
Abstract（参考訳）: 音声認識(ASR)は、深層学習、対話型人工知能、メディアの書き起こし、補助技術の発展に成功している。しかし、テレビシリーズのような複雑な環境では、複数の話者、重複する音声、ドメイン固有の用語、長距離の文脈依存など、ASRシステムは依然として苦戦している。既存のアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を明示的に活用することができない。この制限に対処するために,VLMM(Video-Large Multimodal Model)を用いたビデオガイドポストASR補正(VPC)フレームワークを提案する。テレビシリーズベンチマークによる評価から,複雑なマルチメディア環境における書き起こし精度を継続的に向上することを示す。

関連論文リスト

VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。 VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文参考訳（メタデータ） (2025-11-24T06:57:26Z)
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。 MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。 OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文参考訳（メタデータ） (2025-10-01T02:41:11Z)
Index-MSR: A high-efficiency multimodal fusion framework for speech recognition [7.677016652056559]
Index-MSRは効率的なマルチモーダル音声認識フレームワークである。 MFDは、ビデオからのテキスト関連情報を音声認識に効果的に組み込む。 Index-MSR はソータ精度を実現し,置換誤差を 2050% 削減した。
論文参考訳（メタデータ） (2025-09-26T03:47:15Z)
Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM [12.005825075325234]
本稿では,テキストおよび音声に基づく大規模言語モデルによる後処理を用いたマルチASRプロンプト駆動フレームワークを提案する。従来の方法と比較して,転写精度が大幅に向上した。
論文参考訳（メタデータ） (2025-06-05T12:35:53Z)
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文参考訳（メタデータ） (2025-04-29T10:56:24Z)
TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文参考訳（メタデータ） (2025-03-12T06:43:24Z)
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。 CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文参考訳（メタデータ） (2024-12-14T07:28:38Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文参考訳（メタデータ） (2024-05-21T07:12:27Z)
Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文参考訳（メタデータ） (2023-12-21T17:28:09Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Modality Confidence Aware Training for Robust End-to-End Spoken Language Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文参考訳（メタデータ） (2023-07-22T17:47:31Z)
Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文参考訳（メタデータ） (2022-04-04T23:48:01Z)
Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。 2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文参考訳（メタデータ） (2021-09-22T07:38:59Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文参考訳（メタデータ） (2020-04-29T09:32:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。