論文の概要: Is 42 the Answer to Everything in Subtitling-oriented Speech
Translation?
- arxiv url: http://arxiv.org/abs/2006.01080v1
- Date: Mon, 1 Jun 2020 17:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:07:11.026634
- Title: Is 42 the Answer to Everything in Subtitling-oriented Speech
Translation?
- Title(参考訳): 42はサブタイリング指向音声翻訳におけるあらゆることへの答えか?
- Authors: Alina Karakanta, Matteo Negri, Marco Turchi
- Abstract要約: 情報の発信にはサブティットがますます重要になっている。
サブタイリングに音声翻訳(ST)を適用する2つの手法について検討する。
- 参考スコア(独自算出の注目度): 16.070428245677675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subtitling is becoming increasingly important for disseminating information,
given the enormous amounts of audiovisual content becoming available daily.
Although Neural Machine Translation (NMT) can speed up the process of
translating audiovisual content, large manual effort is still required for
transcribing the source language, and for spotting and segmenting the text into
proper subtitles. Creating proper subtitles in terms of timing and segmentation
highly depends on information present in the audio (utterance duration, natural
pauses). In this work, we explore two methods for applying Speech Translation
(ST) to subtitling: a) a direct end-to-end and b) a classical cascade approach.
We discuss the benefit of having access to the source language speech for
improving the conformity of the generated subtitles to the spatial and temporal
subtitling constraints and show that length is not the answer to everything in
the case of subtitling-oriented ST.
- Abstract(参考訳): 大量のオーディオヴィジュアルコンテンツが毎日利用できるようになる中、サブトタイリングは情報の拡散においてますます重要になっている。
ニューラル機械翻訳(NMT)は、オーディオヴィジュアルコンテンツを翻訳する過程を高速化するが、ソース言語を翻訳し、テキストを適切な字幕に分割するためには、大きな手作業が必要である。
タイミングとセグメンテーションの観点から適切な字幕を作成することは、音声に含まれる情報(発話時間、自然なポーズ)に大きく依存する。
本研究では,音声翻訳(ST)をサブタイピングに適用する2つの手法について検討する。
a) 直接のエンドツーエンドと
b) 古典的なカスケードアプローチ。
本稿では,生成した字幕の空間的および時間的置換制約への適合性を改善するために,ソース言語音声へのアクセスの利点について論じるとともに,字幕指向STの場合,長さがすべてに対する答えではないことを示す。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Direct Speech Translation for Automatic Subtitling [17.095483965591267]
対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。
7つの言語対の実験により、我々のアプローチは、同じデータ条件下でカスケードシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-27T06:47:42Z) - Simultaneous Speech Translation for Live Subtitling: from Delay to
Display [13.35771688595446]
ライブサブタイピングにおける同時音声翻訳(SimulST)の実現可能性について検討する。
我々はSimulSTシステムに翻訳とともに字幕ブレークを予測する。
本稿では,スクロール行に字幕を表示することで,予測ブレーク構造を利用した表示モードを提案する。
論文 参考訳(メタデータ) (2021-07-19T12:35:49Z) - Between Flexibility and Consistency: Joint Generation of Captions and
Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。
本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。
本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:06:04Z) - MuST-Cinema: a Speech-to-Subtitles corpus [16.070428245677675]
TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。
コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。
本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T12:40:06Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。