論文の概要: Dubbing in Practice: A Large Scale Study of Human Localization With
Insights for Automatic Dubbing
- arxiv url: http://arxiv.org/abs/2212.12137v1
- Date: Fri, 23 Dec 2022 04:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:34:37.195133
- Title: Dubbing in Practice: A Large Scale Study of Human Localization With
Insights for Automatic Dubbing
- Title(参考訳): ダビングの実践: 自動ダビングのためのインサイトを用いた人的位置決めの大規模研究
- Authors: William Brannon, Yogesh Virkar, Brian Thompson
- Abstract要約: 本研究では,人間がある言語から別の言語にビデオコンテンツをダビングする作業を行う方法について検討する。
我々は54のプロ制作タイトルから319.57時間のビデオコーパスを利用する。
- 参考スコア(独自算出の注目度): 6.26764826816895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how humans perform the task of dubbing video content from one
language into another, leveraging a novel corpus of 319.57 hours of video from
54 professionally produced titles. This is the first such large-scale study we
are aware of. The results challenge a number of assumptions commonly made in
both qualitative literature on human dubbing and machine-learning literature on
automatic dubbing, arguing for the importance of vocal naturalness and
translation quality over commonly emphasized isometric (character length) and
lip-sync constraints, and for a more qualified view of the importance of
isochronic (timing) constraints. We also find substantial influence of the
source-side audio on human dubs through channels other than the words of the
translation, pointing to the need for research on ways to preserve speech
characteristics, as well as semantic transfer such as emphasis/emotion, in
automatic dubbing systems.
- Abstract(参考訳): 本研究では,54作品から319.57時間のビデオコーパスを生かして,人間がある言語から別の言語にビデオコンテンツをダビングする作業を行う方法について検討する。
これは私たちが知る中で初めての大規模な研究です。
その結果、人間のダビングに関する定性的文献と自動ダビングに関する機械学習文献の両方で一般的な仮定に挑戦し、一般的な強調された等尺性(特徴量長)とリップシンク制約よりも声の自然性と翻訳品質の重要性、そしてより適格な等時性(ティムング)制約の重要性について論じた。
また、翻訳の単語以外のチャネルを通して、音源側の音声が人間のダビングに与える影響も確認し、自動ダビングシステムにおいて、音声の特徴の保存方法や強調/感情といった意味的伝達の研究が必要であることを指摘した。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Prosodic Alignment for off-screen automatic dubbing [17.7813193467431]
自動ダビングの目的は、音声視覚的コヒーレンスを達成しつつ、音声から音声への翻訳を行うことである。
これはイソクロニー、すなわち、その韻律構造をフレーズとポーズに合わせることによって、元の音声を翻訳する。
我々は、制約の少ないオフスクリーンダビングに対処するために、韻律アライメントモデルを拡張します。
論文 参考訳(メタデータ) (2022-04-06T01:02:58Z) - Machine Translation Verbosity Control for Automatic Dubbing [11.85772502779967]
本稿では,機械翻訳出力の冗長性を制御する新しい手法を提案する。
実験では、公開データセットを使用して、英語のスピーチをフランス語、イタリア語、ドイツ語、スペイン語にダブします。
MT冗長性制御がビデオクリップの最終的な品質に与える影響を広範囲にわたる主観的テストで評価した。
論文 参考訳(メタデータ) (2021-10-08T01:19:10Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Is 42 the Answer to Everything in Subtitling-oriented Speech
Translation? [16.070428245677675]
情報の発信にはサブティットがますます重要になっている。
サブタイリングに音声翻訳(ST)を適用する2つの手法について検討する。
論文 参考訳(メタデータ) (2020-06-01T17:02:28Z) - MuST-Cinema: a Speech-to-Subtitles corpus [16.070428245677675]
TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。
コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。
本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T12:40:06Z) - From Speech-to-Speech Translation to Automatic Dubbing [28.95595497865406]
自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。
本アーキテクチャでは,所望の長さの出力を生成するニューラル機械翻訳,元の音声セグメントとの韻律的アライメント,各発話の持続時間を微調整したニューラルテキスト・トゥ・音声を特徴とする。
論文 参考訳(メタデータ) (2020-01-19T07:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。