論文の概要: MuST-Cinema: a Speech-to-Subtitles corpus
- arxiv url: http://arxiv.org/abs/2002.10829v1
- Date: Tue, 25 Feb 2020 12:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:39:24.114139
- Title: MuST-Cinema: a Speech-to-Subtitles corpus
- Title(参考訳): MuST-Cinema:音声字幕コーパス
- Authors: Alina Karakanta, Matteo Negri, Marco Turchi
- Abstract要約: TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。
コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。
本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
- 参考スコア(独自算出の注目度): 16.070428245677675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing needs in localising audiovisual content in multiple languages through
subtitles call for the development of automatic solutions for human subtitling.
Neural Machine Translation (NMT) can contribute to the automatisation of
subtitling, facilitating the work of human subtitlers and reducing turn-around
times and related costs. NMT requires high-quality, large, task-specific
training data. The existing subtitling corpora, however, are missing both
alignments to the source language audio and important information about
subtitle breaks. This poses a significant limitation for developing efficient
automatic approaches for subtitling, since the length and form of a subtitle
directly depends on the duration of the utterance. In this work, we present
MuST-Cinema, a multilingual speech translation corpus built from TED subtitles.
The corpus is comprised of (audio, transcription, translation) triplets.
Subtitle breaks are preserved by inserting special symbols. We show that the
corpus can be used to build models that efficiently segment sentences into
subtitles and propose a method for annotating existing subtitling corpora with
subtitle breaks, conforming to the constraint of length.
- Abstract(参考訳): 字幕によって複数の言語で音声視覚コンテンツをローカライズするニーズが高まり、人間のサブティットリングのための自動ソリューションの開発が求められている。
ニューラルネットワーク翻訳(NMT)は、サブタイトルの自動化に寄与し、人間の字幕の作業を容易にし、ターンアラウンド時間と関連するコストを削減する。
NMTは高品質で大規模なタスク固有のトレーニングデータを必要とする。
しかし、既存のサブタイリングコーパスは、ソース言語音声へのアライメントとサブタイトルブレークに関する重要な情報の両方を欠いている。
これは字幕の長さと形が発話の持続時間に直接依存するため、字幕作成のための効率的な自動アプローチを開発する上で重要な制限となる。
本研究では,TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema を提案する。
コーパスは(オーディオ、転写、翻訳)三つ子から構成される。
字幕は特別な記号を挿入することで保存される。
コーパスを用いて文を字幕に効率よく分割するモデルを構築することができることを示すとともに,単語長の制約に応じて既存の字幕分割コーパスに字幕分割を付加する手法を提案する。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Between Flexibility and Consistency: Joint Generation of Captions and
Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。
本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。
本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:06:04Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - Is 42 the Answer to Everything in Subtitling-oriented Speech
Translation? [16.070428245677675]
情報の発信にはサブティットがますます重要になっている。
サブタイリングに音声翻訳(ST)を適用する2つの手法について検討する。
論文 参考訳(メタデータ) (2020-06-01T17:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。