論文の概要: Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous
Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.07771v1
- Date: Fri, 14 Oct 2022 13:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:35:27.008361
- Title: Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous
Speech Recognition
- Title(参考訳): エンド・ツー・エンド自発音声認識のための同時書き起こし・字幕学習
- Authors: Jakob Poncelet, Hugo Van hamme
- Abstract要約: ASRと自動サブタイピングを共同で行うデュアルデコーダトランスモデルを提案する。
このモデルは、両方のタスクを共同で実行するように訓練されており、字幕データを有効に使用することができる。
- 参考スコア(独自算出の注目度): 15.07442641083822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TV subtitles are a rich source of transcriptions of many types of speech,
ranging from read speech in news reports to conversational and spontaneous
speech in talk shows and soaps. However, subtitles are not verbatim (i.e.
exact) transcriptions of speech, so they cannot be used directly to improve an
Automatic Speech Recognition (ASR) model. We propose a multitask dual-decoder
Transformer model that jointly performs ASR and automatic subtitling. The ASR
decoder (possibly pre-trained) predicts the verbatim output and the subtitle
decoder generates a subtitle, while sharing the encoder. The two decoders can
be independent or connected. The model is trained to perform both tasks
jointly, and is able to effectively use subtitle data. We show improvements on
regular ASR and on spontaneous and conversational ASR by incorporating the
additional subtitle decoder. The method does not require preprocessing
(aligning, filtering, pseudo-labeling, ...) of the subtitles.
- Abstract(参考訳): tv字幕は、ニュース記事の読み上げスピーチから、トークショーや石けんでの会話的、自発的なスピーチまで、様々な種類の音声の豊富な書き起こしの源である。
しかし、字幕は音声の動詞的(すなわち正確な)書き起こしではないため、自動音声認識(asr)モデルを改善するために直接使用することはできない。
本稿では,asrと自動サブタイトを併用したマルチタスクデュアルデコーダトランスフォーマモデルを提案する。
asrデコーダ(おそらくは事前学習済み)は動詞の出力を予測し、サブタイトルデコーダはエンコーダを共有しながらサブタイトルを生成する。
2つのデコーダは独立あるいは接続可能である。
このモデルは、両方のタスクを共同で実行するように訓練され、サブタイトルデータを効果的に使用できる。
副字幕デコーダを付加することにより,通常のASRと自然・会話型ASRの改善を示す。
このメソッドはサブタイトルのプリプロセッシング (aligning, filtering, pseudo-labeling, ...) を必要としない。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。