論文の概要: Refining Transcripts With TV Subtitles by Prompt-Based Weakly Supervised Training of ASR
- arxiv url: http://arxiv.org/abs/2509.04491v1
- Date: Mon, 01 Sep 2025 11:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.331348
- Title: Refining Transcripts With TV Subtitles by Prompt-Based Weakly Supervised Training of ASR
- Title(参考訳): プロンプトをベースとした弱視的ASR訓練によるテレビ字幕の書き換え
- Authors: Xinnian Zhao, Hugo Van Hamme,
- Abstract要約: 本研究では、弱教師付き(WS)自動音声認識(ASR)フレームワークにおいて、テレビ字幕を使用するための新しい手法を提案する。
本手法では,字幕を直接監視信号として使用するのではなく,文脈に富むプロンプトとして再認識する。
生成された擬似転写文字が主要なターゲットとなり、字幕は反復的洗練のための導出手段として機能する。
- 参考スコア(独自算出の注目度): 15.311893064721858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a novel approach to using TV subtitles within a weakly supervised (WS) Automatic Speech Recognition (ASR) framework. Although TV subtitles are readily available, their imprecise alignment with corresponding audio limits their applicability as supervised targets for verbatim transcription. Rather than using subtitles as direct supervision signals, our method reimagines them as context-rich prompts. This design enables the model to handle discrepancies between spoken audio and subtitle text. Instead, generated pseudo transcripts become the primary targets, with subtitles acting as guiding cues for iterative refinement. To further enhance the process, we introduce a weighted attention mechanism that emphasizes relevant subtitle tokens during inference. Our experiments demonstrate significant improvements in transcription accuracy, highlighting the effectiveness of the proposed method in refining transcripts. These enhanced pseudo-labeled datasets provide high-quality foundational resources for training robust ASR systems.
- Abstract(参考訳): 本研究では、弱教師付き(WS)自動音声認識(ASR)フレームワークにおいて、テレビ字幕を使用するための新しい手法を提案する。
テレビの字幕は容易に手に入るが、その不正確なアライメントと対応するオーディオは、動詞の書き起こしを監督するターゲットとして適用範囲を制限している。
本手法では,字幕を直接監視信号として使用するのではなく,文脈に富むプロンプトとして再認識する。
この設計により、モデルは音声音声と字幕テキストの相違を処理できる。
代わりに生成された擬似転写文字が主要なターゲットとなり、字幕は反復的な洗練のための導出の手がかりとして機能する。
プロセスをさらに強化するために、推論中に関連するサブタイトルトークンを強調する重み付けされたアテンション機構を導入する。
本実験は, 転写精度を大幅に向上させ, 転写の精製における提案手法の有効性を強調した。
これらの強化された擬似ラベル付きデータセットは、堅牢なASRシステムのトレーニングのための高品質な基礎資源を提供する。
関連論文リスト
- LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous
Speech Recognition [15.07442641083822]
ASRと自動サブタイピングを共同で行うデュアルデコーダトランスモデルを提案する。
このモデルは、両方のタスクを共同で実行するように訓練されており、字幕データを有効に使用することができる。
論文 参考訳(メタデータ) (2022-10-14T13:01:00Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。