論文の概要: Direct Speech Translation for Automatic Subtitling
- arxiv url: http://arxiv.org/abs/2209.13192v2
- Date: Tue, 25 Jul 2023 18:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 16:22:16.109334
- Title: Direct Speech Translation for Automatic Subtitling
- Title(参考訳): 自動置換のための直接音声翻訳
- Authors: Sara Papi, Marco Gaido, Alina Karakanta, Mauro Cettolo, Matteo Negri,
Marco Turchi
- Abstract要約: 対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
- 参考スコア(独自算出の注目度): 17.095483965591267
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic subtitling is the task of automatically translating the speech of
audiovisual content into short pieces of timed text, i.e. subtitles and their
corresponding timestamps. The generated subtitles need to conform to space and
time requirements, while being synchronised with the speech and segmented in a
way that facilitates comprehension. Given its considerable complexity, the task
has so far been addressed through a pipeline of components that separately deal
with transcribing, translating, and segmenting text into subtitles, as well as
predicting timestamps. In this paper, we propose the first direct ST model for
automatic subtitling that generates subtitles in the target language along with
their timestamps with a single model. Our experiments on 7 language pairs show
that our approach outperforms a cascade system in the same data condition, also
being competitive with production tools on both in-domain and newly-released
out-domain benchmarks covering new scenarios.
- Abstract(参考訳): 自動サブタイリング(英: Automatic Subtitling)とは、オーディオヴィジュアルコンテンツの音声を短いテキスト、すなわち字幕とその対応するタイムスタンプに自動翻訳するタスクである。
生成された字幕は、空間と時間要件に準拠し、音声と同期し、理解を容易にする方法でセグメント化される必要がある。
相当な複雑さから、このタスクはこれまで、テキストの字幕への変換、翻訳、セグメンテーション、タイムスタンプの予測を別々に処理するコンポーネントのパイプラインを通じて対処されてきた。
本稿では,対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語ペアに関する実験では、同じデータ条件でカスケードシステムを上回っており、また、新しいシナリオをカバーするドメイン内ベンチマークと新しくリリースされたドメイン外ベンチマークの両方で運用ツールと競合することが示されています。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SBAAM! Eliminating Transcript Dependency in Automatic Subtitling [23.444615994847947]
サブティットは,映像コンテンツのアクセシビリティ向上に重要な役割を担っている。
このプロセスを自動化しようとする過去の試みは、様々な学位、自動転写に依存していた。
自動字幕を生成することができる最初の直接モデルを導入する。
論文 参考訳(メタデータ) (2024-05-17T12:42:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Between Flexibility and Consistency: Joint Generation of Captions and
Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。
本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。
本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:06:04Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - MuST-Cinema: a Speech-to-Subtitles corpus [16.070428245677675]
TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。
コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。
本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T12:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。