論文の概要: SBAAM! Eliminating Transcript Dependency in Automatic Subtitling
- arxiv url: http://arxiv.org/abs/2405.10741v1
- Date: Fri, 17 May 2024 12:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:03:21.676561
- Title: SBAAM! Eliminating Transcript Dependency in Automatic Subtitling
- Title(参考訳): SBAAM! 自動置換における転写依存の除去
- Authors: Marco Gaido, Sara Papi, Matteo Negri, Mauro Cettolo, Luisa Bentivogli,
- Abstract要約: サブティットは,映像コンテンツのアクセシビリティ向上に重要な役割を担っている。
このプロセスを自動化しようとする過去の試みは、様々な学位、自動転写に依存していた。
自動字幕を生成することができる最初の直接モデルを導入する。
- 参考スコア(独自算出の注目度): 23.444615994847947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subtitling plays a crucial role in enhancing the accessibility of audiovisual content and encompasses three primary subtasks: translating spoken dialogue, segmenting translations into concise textual units, and estimating timestamps that govern their on-screen duration. Past attempts to automate this process rely, to varying degrees, on automatic transcripts, employed diversely for the three subtasks. In response to the acknowledged limitations associated with this reliance on transcripts, recent research has shifted towards transcription-free solutions for translation and segmentation, leaving the direct generation of timestamps as uncharted territory. To fill this gap, we introduce the first direct model capable of producing automatic subtitles, entirely eliminating any dependence on intermediate transcripts also for timestamp prediction. Experimental results, backed by manual evaluation, showcase our solution's new state-of-the-art performance across multiple language pairs and diverse conditions.
- Abstract(参考訳): サブティチングは、音声視覚コンテンツのアクセシビリティを高める上で重要な役割を担い、音声対話の翻訳、簡潔なテキスト単位へのセグメンテーション、画面上の時間を管理するタイムスタンプの推定の3つの主要なサブタスクを包含する。
このプロセスを自動化しようとする過去の試みは、3つのサブタスクに対して多種多様で、様々な程度に自動書き起こしに頼っていた。
この転写に依存しているという認識の限界に応えて、最近の研究は、翻訳とセグメンテーションのための転写のない解へと移行し、タイムスタンプの直接発生は、未知の領域として残されている。
このギャップを埋めるために、自動字幕を生成することができる最初の直接モデルを導入し、タイムスタンプ予測にも中間文字への依存を完全に排除した。
手動による評価に裏付けられた実験結果は、複数の言語対と多様な条件にまたがって、我々のソリューションの新たな最先端性能を示すものである。
関連論文リスト
- Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Dodging the Data Bottleneck: Automatic Subtitling with Automatically
Segmented ST Corpora [15.084508754409848]
サブタイリングのための音声翻訳(SubST)は、音声データを適切な字幕に自動翻訳するタスクである。
本研究では,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。
音声とテキストをマルチモーダルな方法で活用することにより,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T19:06:36Z) - Punctuation Restoration [69.97278287534157]
この研究は、ライブストリーミングビデオの書き起こしで句読点を復元する、BehancePRと呼ばれる新しい人間注記コーパスを提示する。
BehancePRに関する我々の実験は、この領域における句読点復元の課題を実証している。
論文 参考訳(メタデータ) (2022-02-19T23:12:57Z) - Machine Translation Verbosity Control for Automatic Dubbing [11.85772502779967]
本稿では,機械翻訳出力の冗長性を制御する新しい手法を提案する。
実験では、公開データセットを使用して、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダブします。
MT冗長性制御がビデオクリップの最終的な品質に与える影響を広範囲にわたる主観的テストで評価した。
論文 参考訳(メタデータ) (2021-10-08T01:19:10Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - A Sliding-Window Approach to Automatic Creation of Meeting Minutes [66.39584679676817]
会議の議事録には、議論された問題、決定、会議での行動が記録されている。
会議時間の自動生成のためのスライディングウインドウ手法を提案する。
長い写本や文書構造の欠如など、発話テキストの性質に関連する問題に取り組むことを目指しています。
論文 参考訳(メタデータ) (2021-04-26T02:44:14Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Consistent Transcription and Translation of Speech [13.652411093089947]
音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
論文 参考訳(メタデータ) (2020-07-24T19:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。