Fugu-MT 論文翻訳(概要): Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

論文の概要: Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

arxiv url: http://arxiv.org/abs/2602.18618v1
Date: Fri, 20 Feb 2026 21:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.197077
Title: Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space
Title（参考訳）: 多角空間を用いたプロンプト誘導型視覚的ナレーション顔生成
Authors: Aashish Chandra, Aashutosh A, Abhijit Das,
Abstract要約: 本研究では,静止画像,音声プロファイル,ターゲットテキストから人の声と顔の動きを合成することで,現実的な話し声を生成する新しいアプローチを提案する。モデルは、個人のプロンプト/運転用テキスト、運転画像、音声プロファイルをエンコードし、それらを組み合わせて、複数の絡み合った潜在空間に渡して、キーバリューペアと音声およびビデオモダリティ生成パイプラインのためのクエリを育成する。
参考スコア（独自算出の注目度）: 2.2694539341092823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel approach for generating realistic speaking and talking faces by synthesizing a person's voice and facial movements from a static image, a voice profile, and a target text. The model encodes the prompt/driving text, the driving image, and the voice profile of an individual and then combines them to pass them to the multi-entangled latent space to foster key-value pairs and queries for the audio and video modality generation pipeline. The multi-entangled latent space is responsible for establishing the spatiotemporal person-specific features between the modalities. Further, entangled features are passed to the respective decoder of each modality for output audio and video generation.
Abstract（参考訳）: 本研究では,静止画像,音声プロファイル,ターゲットテキストから人の声と顔の動きを合成することで,現実的な話し声を生成する新しいアプローチを提案する。モデルは、個人のプロンプト/運転用テキスト、運転画像、音声プロファイルを符号化し、それらを組み合わせて、複数の絡み合った潜在空間に渡して、音声およびビデオモダリティ生成パイプラインのキーバリューペアとクエリを育成する。多角ラテント空間は、モダリティ間の時空間特有の特徴を確立する役割を担っている。さらに、各モードのそれぞれのデコーダに絡み合った特徴を渡し、音声及び映像を出力する。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-05-25T04:43:17Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文参考訳（メタデータ） (2023-06-28T08:22:53Z)
Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文参考訳（メタデータ） (2021-04-16T09:44:12Z)
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文参考訳（メタデータ） (2021-01-08T18:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。