論文の概要: Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture
Videos into Multiple Indian Languages
- arxiv url: http://arxiv.org/abs/2211.01338v1
- Date: Tue, 1 Nov 2022 07:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:23:07.523978
- Title: Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture
Videos into Multiple Indian Languages
- Title(参考訳): 複数のインド語への講義映像の大規模言語間ダビングのための技術パイプライン
- Authors: Anusha Prakash, Arun Kumar, Ashish Seth, Bhagyashree Mukherjee, Ishika
Gupta, Jom Kuriakose, Jordan Fernandes, K V Vikram, Mano Ranjith Kumar M,
Metilda Sagaya Mary, Mohammad Wajahat, Mohana N, Mudit Batra, Navina K, Nihal
John George, Nithya Ravi, Pruthwik Mishra, Sudhanshu Srivastava, Vasista Sai
Lodagala, Vandan Mujadia, Kada Sai Venkata Vineeth, Vrunda Sukhadia, Dipti
Sharma, Hema Murthy, Pushpak Bhattacharya, S Umesh, Rajeev Sangal
- Abstract要約: 講義ビデオの言語間ダビングには、オリジナルの音声の書き起こし、修正と不一致の除去が必要である。
本稿では,インド語の講義映像を半自動で再生する際の課題について述べる。
- 参考スコア(独自算出の注目度): 5.17905382659474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual dubbing of lecture videos requires the transcription of the
original audio, correction and removal of disfluencies, domain term discovery,
text-to-text translation into the target language, chunking of text using
target language rhythm, text-to-speech synthesis followed by isochronous
lipsyncing to the original video. This task becomes challenging when the source
and target languages belong to different language families, resulting in
differences in generated audio duration. This is further compounded by the
original speaker's rhythm, especially for extempore speech. This paper
describes the challenges in regenerating English lecture videos in Indian
languages semi-automatically. A prototype is developed for dubbing lectures
into 9 Indian languages. A mean-opinion-score (MOS) is obtained for two
languages, Hindi and Tamil, on two different courses. The output video is
compared with the original video in terms of MOS (1-5) and lip synchronisation
with scores of 4.09 and 3.74, respectively. The human effort also reduces by
75%.
- Abstract(参考訳): 講義ビデオのクロスリンガルドビングには、元の音声の書き起こし、不均一性の修正と除去、ドメイン項の発見、ターゲット言語へのテキスト間翻訳、ターゲット言語リズムを用いたテキストのチャンク、テキストから音声への合成、そして元のビデオへの等時リップシンクが必要である。
このタスクは、ソース言語とターゲット言語が異なる言語ファミリーに属し、生成された音声の持続時間が異なる場合に困難になる。
これは、もともとの話者のリズム、特にextempore speechによってさらに複合される。
本稿では,インド語の講義ビデオの半自動再生における課題について述べる。
インドの9つの言語に講義をダビングするためにプロトタイプが開発された。
2つの異なるコース(ヒンディー語とタミル語)で平均オピニオンスコア(mos)を得る。
出力ビデオは、それぞれ4.09と3.74のスコアで、MOS(1-5)と唇同期で原ビデオと比較される。
人間の努力も75%減少する。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Direct Punjabi to English speech translation using discrete units [4.883313216485195]
本稿では,Punjabi という言語を英語に翻訳する手法を提案する。
また、トランスフォーマーに基づく翻訳モデルへの入力として、離散音響単位と呼ばれる音声の離散表現を用いた場合の性能についても検討する。
以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-25T03:03:34Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。