Fugu-MT 論文翻訳(概要): Simultaneous Speech Translation for Live Subtitling: from Delay to Display

論文の概要: Simultaneous Speech Translation for Live Subtitling: from Delay to Display

arxiv url: http://arxiv.org/abs/2107.08807v2
Date: Tue, 20 Jul 2021 09:27:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 11:54:14.475957
Title: Simultaneous Speech Translation for Live Subtitling: from Delay to Display
Title（参考訳）: ライブサブタイリングのための同時音声翻訳:遅延からディスプレイへ
Authors: Alina Karakanta, Sara Papi, Matteo Negri, Marco Turchi
Abstract要約: ライブサブタイピングにおける同時音声翻訳(SimulST)の実現可能性について検討する。我々はSimulSTシステムに翻訳とともに字幕ブレークを予測する。本稿では,スクロール行に字幕を表示することで,予測ブレーク構造を利用した表示モードを提案する。
参考スコア（独自算出の注目度）: 13.35771688595446
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (SimulST) for live subtitling. However, the word-for-word rate of generation of SimulST systems is not optimal for displaying the subtitles in a comprehensible and readable way. In this work, we adapt SimulST systems to predict subtitle breaks along with the translation. We then propose a display mode that exploits the predicted break structure by presenting the subtitles in scrolling lines. We compare our proposed mode with a display 1) word-for-word and 2) in blocks, in terms of reading speed and delay. Experiments on three language pairs (en$\rightarrow$it, de, fr) show that scrolling lines is the only mode achieving an acceptable reading speed while keeping delay close to a 4-second threshold. We argue that simultaneous translation for readable live subtitles still faces challenges, the main one being poor translation quality, and propose directions for steering future research.
Abstract（参考訳）: コミュニケーションのオーディオヴィジュアル化の増大により、多言語イベントにおけるライブ字幕の必要性はこれまで以上に重要になっている。プロセスの自動化を目的として,ライブサブタイピングのための同時音声翻訳(SimulST)の実現可能性を探究する。しかし、SimulSTシステム生成のワード・フォー・ワード・レートは、理解しやすく読みやすい方法で字幕を表示するのに最適ではない。そこで本研究では,SimulSTシステムを用いて字幕分割の予測を行う。次に,字幕をスクロール行に表示することで,予測ブレーク構造を利用した表示モードを提案する。提案手法は, 読み込み速度と遅延の点で, 1) ワードフォーワード, 2) ブロックの表示モードと比較した。 3つの言語対の実験(en$\rightarrow$it, de, fr)では、スクロールラインが許容される読み込み速度を達成する唯一のモードであり、遅延は4秒の閾値に近づいた。読解可能な字幕の同時翻訳は依然として課題に直面しており,翻訳品質の低下が主な問題であり,今後の研究の方向性を提案する。

関連論文リスト

Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文参考訳（メタデータ） (2025-05-27T08:43:28Z)
High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。 Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文参考訳（メタデータ） (2025-02-05T17:18:55Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文参考訳（メタデータ） (2023-01-18T12:15:47Z)
TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。 TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文参考訳（メタデータ） (2022-09-28T15:08:03Z)
Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。 7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文参考訳（メタデータ） (2022-09-27T06:47:42Z)
Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-30T16:29:37Z)
SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文参考訳（メタデータ） (2021-12-08T11:04:52Z)
Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文参考訳（メタデータ） (2021-05-06T17:59:36Z)
Presenting Simultaneous Translation in Limited Space [0.0]
長文音声の自動同時翻訳のいくつかの方法は、出力のリビジョン、低レイテンシのためのトレーディング精度を許容する。購読は素早く、漸進的に、読みに十分な時間で表示されなければならない。テストセットの品質,レイテンシ,安定性を計測し,自動翻訳とサブティットリングの組み合わせの全体的なユーザビリティを推定する方法を提案する。
論文参考訳（メタデータ） (2020-09-18T18:37:03Z)
Is 42 the Answer to Everything in Subtitling-oriented Speech Translation? [16.070428245677675]
情報の発信にはサブティットがますます重要になっている。サブタイリングに音声翻訳(ST)を適用する2つの手法について検討する。
論文参考訳（メタデータ） (2020-06-01T17:02:28Z)
MuST-Cinema: a Speech-to-Subtitles corpus [16.070428245677675]
TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
論文参考訳（メタデータ） (2020-02-25T12:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。