論文の概要: Generate Your Talking Avatar from Video Reference
- arxiv url: http://arxiv.org/abs/2604.27918v1
- Date: Thu, 30 Apr 2026 14:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.133527
- Title: Generate Your Talking Avatar from Video Reference
- Title(参考訳): ビデオ参照から会話アバターを生成する
- Authors: Zujin Guo, Zhenhui Ye, Yi Ren, Yuanming Li, Ce Chen, Zhibin Hong, Chen Change Loy,
- Abstract要約: 既存の会話アバター法は、通常、ターゲット生成と同じシーン内の静的参照画像に条件付きイメージ・ツー・ビデオパイプラインを採用する。
本稿では,ビデオレファレンス(TAVR)からのトークアバター生成について紹介する。
- 参考スコア(独自算出の注目度): 54.88475181123363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing talking avatar methods typically adopt an image-to-video pipeline conditioned on a static reference image within the same scene as the target generation. This restricted, single-view perspective lacks sufficient temporal and expression cues, limiting the ability to synthesize high-fidelity talking avatars in customized backgrounds. To this end, we introduce Talking Avatar generation from Video Reference (TAVR), a novel framework that shifts the paradigm by leveraging cross-scene video inputs. To effectively process these extended temporal contexts and bridge cross-scene domain gaps, TAVR integrates a token selection module alongside a comprehensive three-stage training scheme. Specifically, same-scene video pretraining establishes foundational appearance copying, which is subsequently expanded by cross-scene reference fine-tuning for robust cross-scene adaptation. Finally, task-specific reinforcement learning aligns the generated outputs with identity-based rewards to maximize identity similarity. To systematically evaluate cross-scene robustness, we construct a new benchmark comprising 158 carefully curated cross-scene video pairs. Extensive experiments show that TAVR benefits from flexible inference-time video referencing and consistently surpasses existing baselines both quantitatively and qualitatively. This work has been deployed to production. For more related research, please visit \href{https://www.heygen.com/research}{HeyGen Research} and \href{https://www.heygen.com/research/avatar-v-model}{HeyGen Avatar-V}.
- Abstract(参考訳): 既存の会話アバター手法は、通常、ターゲット生成と同じシーン内の静的参照画像に条件付きイメージ・ツー・ビデオパイプラインを採用する。
この制限されたシングルビューパースペクティブは、十分な時間的および表現的手がかりを欠き、カスタマイズされた背景において高忠実な会話アバターを合成する能力を制限する。
この目的のために,ビデオレファレンス(TAVR)からトークアバター生成を導入する。
これらの拡張時間的コンテキストとクロスシーンドメインギャップを効果的に処理するために、TAVRは、包括的な3段階トレーニングスキームとともにトークン選択モジュールを統合する。
特に、同シーンのビデオ事前訓練は、基礎的な外観模倣を確立し、その後、堅牢なクロスシーン適応のためのクロスシーン参照微調整によって拡張される。
最後に、タスク固有の強化学習は、生成した出力をアイデンティティベースの報酬と整合させ、アイデンティティの類似性を最大化する。
クロスシーンのロバスト性を体系的に評価するために,158個のビデオペアを慎重にキュレートした新しいベンチマークを構築した。
大規模な実験では、TAVRはフレキシブルな推論時のビデオ参照の恩恵を受けており、定量的にも質的にも既存のベースラインを一貫して上回っている。
この作業は本番環境に配備されている。
関連する研究については、 \href{https://www.heygen.com/research}{HeyGen Research} と \href{https://www.heygen.com/research/avatar-v-model}{HeyGen Avatar-V} をご覧ください。
関連論文リスト
- ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation [14.141157176094737]
画像対ビデオ生成(I2V)は、静的画像をテキスト命令に従って時間的に一貫性のあるビデオシーケンスに変換する。
既存のI2Vパイプラインは、しばしば外観のドリフトと幾何学的歪みに悩まされる。
本稿では、第1フレームを非表示の補助ビューで拡張するビュー支援I2V生成フレームワークであるConsID-Genを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:59:51Z) - ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation [36.29956463871403]
テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
論文 参考訳(メタデータ) (2025-12-08T09:12:18Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。