論文の概要: Speaker Diarization of Scripted Audiovisual Content
- arxiv url: http://arxiv.org/abs/2308.02160v1
- Date: Fri, 4 Aug 2023 06:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:41:16.936020
- Title: Speaker Diarization of Scripted Audiovisual Content
- Title(参考訳): スクリプト音声の話者ダイアリゼーション
- Authors: Yogesh Virkar, Brian Thompson, Rohit Paturi, Sundararajan Srinivasan,
Marcello Federico
- Abstract要約: 本稿では,話者ダイアリゼーションタスクのための擬似ラベル付きデータを抽出するために,撮影プロセスで使用されるプロダクションスクリプトを活用する新しい手法を提案する。
そこで本研究では,66の試験セットを用いて,2つの教師なしベースラインモデルに対して,新しい半教師付きアプローチを提案し,51.7%の改善を示した。
- 参考スコア(独自算出の注目度): 10.411522337156484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The media localization industry usually requires a verbatim script of the
final film or TV production in order to create subtitles or dubbing scripts in
a foreign language. In particular, the verbatim script (i.e. as-broadcast
script) must be structured into a sequence of dialogue lines each including
time codes, speaker name and transcript. Current speech recognition technology
alleviates the transcription step. However, state-of-the-art speaker
diarization models still fall short on TV shows for two main reasons: (i) their
inability to track a large number of speakers, (ii) their low accuracy in
detecting frequent speaker changes. To mitigate this problem, we present a
novel approach to leverage production scripts used during the shooting process,
to extract pseudo-labeled data for the speaker diarization task. We propose a
novel semi-supervised approach and demonstrate improvements of 51.7% relative
to two unsupervised baseline models on our metrics on a 66 show test set.
- Abstract(参考訳): メディアのローカライゼーション産業は通常、外国語で字幕やダビングの脚本を作成するために、最終映画やテレビ制作の口頭文字を必要とする。
特に、動詞尾文字(すなわちas-broadcastスクリプト)は、時間符号、話者名、書き起こしを含む対話行の列に構成されなければならない。
現在の音声認識技術は、転写ステップを緩和する。
しかし、最先端の話者ダイアリゼーションモデルは2つの主な理由から、まだテレビ番組では不足している。
(i)多数の話者を追跡できないこと。
(2)頻繁な話者変化を検出する際の低い精度。
この問題を軽減するため,撮影中に使用する生産スクリプトを活用し,話者ダイアリゼーションタスクに対して擬似ラベルデータを抽出する新しい手法を提案する。
我々は,新しい半教師付きアプローチを提案し,66のshowテストセットにおいて,教師なしの2つの基準モデルと比較して51.7%の改善を示す。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。