論文の概要: Towards Automatic Face-to-Face Translation
- arxiv url: http://arxiv.org/abs/2003.00418v1
- Date: Sun, 1 Mar 2020 06:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:36:38.793260
- Title: Towards Automatic Face-to-Face Translation
- Title(参考訳): 対面自動翻訳に向けて
- Authors: Prajwal K R, Rudrabha Mukhopadhyay, Jerin Philip, Abhishek Jha, Vinay
Namboodiri, C.V. Jawahar
- Abstract要約: 「顔から顔への翻訳」は、言語Aで話す人の映像をリアルな唇同期を持つ対象言語Bに翻訳することができる。
我々は,音声と言語から既存の複数のモジュールをまとめて,音声から音声への翻訳を行うシステムを構築した。
そこで我々は,翻訳音声から現実的な発話顔を生成するための新しいビジュアルモジュールLipGANを組み込むことで,「顔から顔への翻訳」を目指す。
- 参考スコア(独自算出の注目度): 30.841020484914527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In light of the recent breakthroughs in automatic machine translation
systems, we propose a novel approach that we term as "Face-to-Face
Translation". As today's digital communication becomes increasingly visual, we
argue that there is a need for systems that can automatically translate a video
of a person speaking in language A into a target language B with realistic lip
synchronization. In this work, we create an automatic pipeline for this problem
and demonstrate its impact on multiple real-world applications. First, we build
a working speech-to-speech translation system by bringing together multiple
existing modules from speech and language. We then move towards "Face-to-Face
Translation" by incorporating a novel visual module, LipGAN for generating
realistic talking faces from the translated audio. Quantitative evaluation of
LipGAN on the standard LRW test set shows that it significantly outperforms
existing approaches across all standard metrics. We also subject our
Face-to-Face Translation pipeline, to multiple human evaluations and show that
it can significantly improve the overall user experience for consuming and
interacting with multimodal content across languages. Code, models and demo
video are made publicly available.
Demo video: https://www.youtube.com/watch?v=aHG6Oei8jF0
Code and models: https://github.com/Rudrabha/LipGAN
- Abstract(参考訳): 自動機械翻訳システムにおける最近の進歩を踏まえ、我々は「顔から顔への翻訳」と呼ぶ新しいアプローチを提案する。
今日のデジタルコミュニケーションがますます視覚的になるにつれて、言語Aで話す人のビデオをリアルな唇の同期を伴うターゲット言語Bに自動翻訳できるシステムの必要性が議論されている。
本研究では,この問題に対する自動パイプラインを作成し,その影響を実世界アプリケーションで実証する。
まず、既存の複数のモジュールを音声と言語から組み合わせ、音声から音声への翻訳システムを構築する。
次に,翻訳音声からリアルな発話顔を生成するための新しいビジュアルモジュールLipGANを組み込むことで,「顔から顔への翻訳」を目指す。
標準LRWテストセットにおけるLipGANの定量的評価は、すべての標準メトリクスで既存のアプローチよりも大幅に優れていることを示している。
また、対面の翻訳パイプラインを複数の人間による評価に適用し、言語間でのマルチモーダルコンテンツの消費と対話に関するユーザーエクスペリエンスを劇的に改善できることを示しました。
コード、モデル、デモビデオが公開されている。
デモビデオ: https://www.youtube.com/watch?
v=aHG6Oei8jF0コードとモデル:https://github.com/Rudrabha/LipGAN
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - Talking Face Generation with Multilingual TTS [0.8229645116651871]
音声合成システムと音声合成システムを組み合わせたシステムを提案する。
本システムは,話者の発声性を保ちながら,自然な多言語音声を合成することができる。
デモでは、事前処理ステージに翻訳APIを追加して、ニューラルダバーの形式で提示しています。
論文 参考訳(メタデータ) (2022-05-13T02:08:35Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。