論文の概要: Cross-modal Face- and Voice-style Transfer
- arxiv url: http://arxiv.org/abs/2302.13838v2
- Date: Wed, 1 Mar 2023 14:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 11:36:06.869211
- Title: Cross-modal Face- and Voice-style Transfer
- Title(参考訳): クロスモーダル顔と音声の移動
- Authors: Naoya Takahashi, Mayank K. Singh, Yuki Mitsufuji
- Abstract要約: XFaVoTと呼ばれるクロスモーダルなスタイル転送フレームワークは、画像翻訳と音声変換タスクを共同で学習する。
XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインよりも優れることを示す。
- 参考スコア(独自算出の注目度): 21.801492002950557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation and voice conversion enable the generation of a
new facial image and voice while maintaining some of the semantics such as a
pose in an image and linguistic content in audio, respectively. They can aid in
the content-creation process in many applications. However, as they are limited
to the conversion within each modality, matching the impression of the
generated face and voice remains an open question. We propose a cross-modal
style transfer framework called XFaVoT that jointly learns four tasks: image
translation and voice conversion tasks with audio or image guidance, which
enables the generation of ``face that matches given voice" and ``voice that
matches given face", and intra-modality translation tasks with a single
framework. Experimental results on multiple datasets show that XFaVoT achieves
cross-modal style translation of image and voice, outperforming baselines in
terms of quality, diversity, and face-voice correspondence.
- Abstract(参考訳): 画像から画像への変換と音声への変換により、画像中のポーズや音声中の言語的内容などのセマンティクスを維持しつつ、新しい顔画像と音声を生成することができる。
多くのアプリケーションでコンテンツ作成プロセスを支援することができます。
しかし、それぞれのモダリティ内の変換に制限があるため、生成した顔と声の印象の一致は未解決のままである。
xfavot というクロスモーダル・スタイル・トランスファー・フレームワークを提案する。これは音声や画像誘導を伴う画像翻訳と音声変換の4つのタスクを共同で学習し、与えられた音声に合致する顔」と「与えられた顔に合致する声」の生成を可能にする。
複数のデータセットに対する実験結果から,XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインを上回った。
関連論文リスト
- Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice
Alignment [33.55724004790504]
本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。
この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。
ゼロショットFaceVCタスクにおける提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-09-18T04:08:02Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。