論文の概要: Cross-modal Face- and Voice-style Transfer
- arxiv url: http://arxiv.org/abs/2302.13838v1
- Date: Mon, 27 Feb 2023 14:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:21:07.160980
- Title: Cross-modal Face- and Voice-style Transfer
- Title(参考訳): クロスモーダル顔と音声の移動
- Authors: Naoya Takahashi, Mayank K. Singh, Yuki Mitsufuji
- Abstract要約: XFaVoTと呼ばれるクロスモーダルなスタイル転送フレームワークは、画像翻訳と音声変換タスクを共同で学習する。
XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインよりも優れることを示す。
- 参考スコア(独自算出の注目度): 21.801492002950557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation and voice conversion enable the generation of a
new facial image and voice while maintaining some of the semantics such as a
pose in an image and linguistic content in audio, respectively. They can aid in
the content-creation process in many applications. However, as they are limited
to the conversion within each modality, matching the impression of the
generated face and voice remains an open question. We propose a cross-modal
style transfer framework called XFaVoT that jointly learns four tasks: image
translation and voice conversion tasks with audio or image guidance, which
enables the generation of ``face that matches given voice" and ``voice that
matches given face", and intra-modality translation tasks with a single
framework. Experimental results on multiple datasets show that XFaVoT achieves
cross-modal style translation of image and voice, outperforming baselines in
terms of quality, diversity, and face-voice correspondence.
- Abstract(参考訳): 画像から画像への変換と音声への変換により、画像中のポーズや音声中の言語的内容などのセマンティクスを維持しつつ、新しい顔画像と音声を生成することができる。
多くのアプリケーションでコンテンツ作成プロセスを支援することができます。
しかし、それぞれのモダリティ内の変換に制限があるため、生成した顔と声の印象の一致は未解決のままである。
xfavot というクロスモーダル・スタイル・トランスファー・フレームワークを提案する。これは音声や画像誘導を伴う画像翻訳と音声変換の4つのタスクを共同で学習し、与えられた音声に合致する顔」と「与えられた顔に合致する声」の生成を可能にする。
複数のデータセットに対する実験結果から,XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインを上回った。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice
Alignment [33.55724004790504]
本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。
この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。
ゼロショットFaceVCタスクにおける提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-09-18T04:08:02Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Towards Generating Diverse Audio Captions via Adversarial Training [52.163818279075194]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。