Fugu-MT 論文翻訳(概要): Cross-modal Face- and Voice-style Transfer

論文の概要: Cross-modal Face- and Voice-style Transfer

arxiv url: http://arxiv.org/abs/2302.13838v1
Date: Mon, 27 Feb 2023 14:39:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 15:21:07.160980
Title: Cross-modal Face- and Voice-style Transfer
Title（参考訳）: クロスモーダル顔と音声の移動
Authors: Naoya Takahashi, Mayank K. Singh, Yuki Mitsufuji
Abstract要約: XFaVoTと呼ばれるクロスモーダルなスタイル転送フレームワークは、画像翻訳と音声変換タスクを共同で学習する。 XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインよりも優れることを示す。
参考スコア（独自算出の注目度）: 21.801492002950557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-to-image translation and voice conversion enable the generation of a new facial image and voice while maintaining some of the semantics such as a pose in an image and linguistic content in audio, respectively. They can aid in the content-creation process in many applications. However, as they are limited to the conversion within each modality, matching the impression of the generated face and voice remains an open question. We propose a cross-modal style transfer framework called XFaVoT that jointly learns four tasks: image translation and voice conversion tasks with audio or image guidance, which enables the generation of ``face that matches given voice" and ``voice that matches given face", and intra-modality translation tasks with a single framework. Experimental results on multiple datasets show that XFaVoT achieves cross-modal style translation of image and voice, outperforming baselines in terms of quality, diversity, and face-voice correspondence.
Abstract（参考訳）: 画像から画像への変換と音声への変換により、画像中のポーズや音声中の言語的内容などのセマンティクスを維持しつつ、新しい顔画像と音声を生成することができる。多くのアプリケーションでコンテンツ作成プロセスを支援することができます。しかし、それぞれのモダリティ内の変換に制限があるため、生成した顔と声の印象の一致は未解決のままである。 xfavot というクロスモーダル・スタイル・トランスファー・フレームワークを提案する。これは音声や画像誘導を伴う画像翻訳と音声変換の4つのタスクを共同で学習し、与えられた音声に合致する顔」と「与えられた顔に合致する声」の生成を可能にする。複数のデータセットに対する実験結果から,XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインを上回った。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation [14.036076647627553]
顔画像とテキストが与えられた場合、音声による顔のアニメーションとその対応する音声を生成する。我々は、新しいフレームワークFace2VoiceSyncを提案し、いくつかの新しいコントリビューションを行った。実験では、Face2VoiceSyncは単一の40GBのGPU上で、視覚的およびオーディオ的両方のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-25T12:49:06Z)
MuteSwap: Visual-informed Silent Video Identity Conversion [18.395223784732806]
我々はSilent Face-based Voice Conversion (SFVC)を紹介する。 SFVCは、視覚的手がかりのみを用いて、理解不能な音声を生成し、アイデンティティを変換する。 MuteSwapは、相互モダリティのアイデンティティを整合させるために、対照的に学習する新しいフレームワークである。
論文参考訳（メタデータ） (2025-07-01T07:13:34Z)
Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-05-25T04:43:17Z)
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文参考訳（メタデータ） (2025-04-29T10:56:24Z)
Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization [20.728919218746363]
VQTalkerは、ベクトル量子化に基づく多言語音声ヘッド生成フレームワークである。我々のアプローチは、人間の発話は有限個の異なる音の単位からなるという音素原理に基づいている。 VQTalkerは、ビデオ駆動と音声駆動の両方のシナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-13T06:14:57Z)
Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文参考訳（メタデータ） (2024-09-01T11:51:18Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment [33.55724004790504]
本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。ゼロショットFaceVCタスクにおける提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-09-18T04:08:02Z)
Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文参考訳（メタデータ） (2023-06-20T12:50:49Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。 TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文参考訳（メタデータ） (2022-09-28T15:08:03Z)
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-12-04T04:53:35Z)
Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-11-30T13:30:12Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文参考訳（メタデータ） (2021-01-08T18:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。