Fugu-MT 論文翻訳(概要): Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation

論文の概要: Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation

arxiv url: http://arxiv.org/abs/2603.17889v1
Date: Wed, 18 Mar 2026 16:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.816923
Title: Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation
Title（参考訳）: 存在としてのアイデンティティ: 外観と音声のパーソナライズされた共同オーディオビデオ生成を目指して
Authors: Yingjie Chen, Shilun Lin, Cai Xing, Qixin Yan, Wenjing Wang, Dingming Liu, Hao Liu, Chen Li, Jing Lyu,
Abstract要約: 高忠実度パーソナライゼーションを実現するために,アイデンティティ対応のジョイントビデオ生成のための統合フレームワークを提案する。具体的には、音声と視覚のモダリティにまたがるペアアノテーションを用いて、IDを含む情報を自動抽出するデータキュレーションパイプラインを導入する。顔の外観と声帯が同一性を持つ制御信号として機能する単一・多目的シナリオに対する柔軟でスケーラブルなID注入機構を提案する。
参考スコア（独自算出の注目度）: 12.978282107928118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances have demonstrated compelling capabilities in synthesizing real individuals into generated videos, reflecting the growing demand for identity-aware content creation. Nevertheless, an openly accessible framework enabling fine-grained control over facial appearance and voice timbre across multiple identities remains unavailable. In this work, we present a unified and scalable framework for identity-aware joint audio-video generation, enabling high-fidelity and consistent personalization. Specifically, we introduce a data curation pipeline that automatically extracts identity-bearing information with paired annotations across audio and visual modalities, covering diverse scenarios from single-subject to multi-subject interactions. We further propose a flexible and scalable identity injection mechanism for single- and multi-subject scenarios, in which both facial appearance and vocal timbre act as identity-bearing control signals. Moreover, in light of modality disparity, we design a multi-stage training strategy to accelerate convergence and enforce cross-modal coherence. Experiments demonstrate the superiority of the proposed framework. For more details and qualitative results, please refer to our webpage: \href{https://chen-yingjie.github.io/projects/Identity-as-Presence}{Identity-as-Presence}.
Abstract（参考訳）: 近年の進歩は、実際の個人を生成ビデオに合成する魅力的な能力を示しており、アイデンティティを意識したコンテンツ制作の需要が増大していることを反映している。それでも、複数のアイデンティティにわたる顔の外観と音声の音色をきめ細かく制御できるオープンアクセスフレームワークは、まだ利用できない。本研究では,高忠実度かつ一貫したパーソナライズを可能にする,アイデンティティ対応のジョイントビデオ生成のための統一的でスケーラブルなフレームワークを提案する。具体的には、単一オブジェクトから多オブジェクトインタラクションまでの多様なシナリオを網羅する、音声と視覚のモダリティをまたいだペア付きアノテーションで、IDを含む情報を自動抽出するデータキュレーションパイプラインを提案する。さらに,顔の外観と声帯が同一性を持つ制御信号として機能する単一・多目的シナリオに対して,柔軟かつスケーラブルなID注入機構を提案する。さらに,モダリティの相違を考慮して,コンバージェンスを加速し,モーダルコヒーレンスを強制するための多段階トレーニング戦略を設計する。提案したフレームワークの優位性を示す実験がある。詳細と質的な結果については、私たちのWebページを参照してください。

関連論文リスト

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement [30.435102560798455]
マルチストリーム処理アーキテクチャを特徴とするマルチパーソン生成フレームワークであるAnyTalkerを提案する。本研究では,Diffusion Transformerのアテンションブロックを,IDとオーディオのペアを反復的に処理する新しいID対応アテンション機構で拡張する。提案するトレーニングパイプラインは,複数対人会話パターンを学習し,実際の複数対人クリップでのみ対話性を洗練するために,単対人ビデオにのみ依存する。
論文参考訳（メタデータ） (2025-11-28T18:59:01Z)
ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文参考訳（メタデータ） (2025-11-01T11:29:14Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文参考訳（メタデータ） (2024-06-13T04:33:20Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。