論文の概要: Is It Truly Necessary to Process and Fit Minutes-Long Reference Videos for Personalized Talking Face Generation?
- arxiv url: http://arxiv.org/abs/2511.07940v1
- Date: Wed, 12 Nov 2025 01:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.558172
- Title: Is It Truly Necessary to Process and Fit Minutes-Long Reference Videos for Personalized Talking Face Generation?
- Title(参考訳): パーソナライズされた対面生成のための1分間の参照ビデオの処理と編集は本当に必要か?
- Authors: Rui-Qing Sun, Ang Li, Zhijing Wu, Tian Lan, Qianyu Lu, Xingshan Yao, Chen Xu, Xian-Ling Mao,
- Abstract要約: Talking Face Generation (TFG)は、現実的でダイナミックな話しの肖像画を作成することを目的としている。
本稿では,5秒間の参照ビデオセグメントを自動的に識別する,シンプルで効率の良いセグメント選択手法を提案する。
提案手法は,高忠実度出力を維持しつつ,NeRF法と3DGS法でデータ処理とトレーニング速度を5倍以上に向上させる。
- 参考スコア(独自算出の注目度): 29.706831701595565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Talking Face Generation (TFG) aims to produce realistic and dynamic talking portraits, with broad applications in fields such as digital education, film and television production, e-commerce live streaming, and other related areas. Currently, TFG methods based on Neural Radiated Field (NeRF) or 3D Gaussian sputtering (3DGS) are received widespread attention. They learn and store personalized features from reference videos of each target individual to generate realistic speaking videos. To ensure models can capture sufficient 3D information and successfully learns the lip-audio mapping, previous studies usually require meticulous processing and fitting several minutes of reference video, which always takes hours. The computational burden of processing and fitting long reference videos severely limits the practical application value of these methods.However, is it really necessary to fit such minutes of reference video? Our exploratory case studies show that using some informative reference video segments of just a few seconds can achieve performance comparable to or even better than the full reference video. This indicates that video informative quality is much more important than its length. Inspired by this observation, we propose the ISExplore (short for Informative Segment Explore), a simple-yet-effective segment selection strategy that automatically identifies the informative 5-second reference video segment based on three key data quality dimensions: audio feature diversity, lip movement amplitude, and number of camera views. Extensive experiments demonstrate that our approach increases data processing and training speed by more than 5x for NeRF and 3DGS methods, while maintaining high-fidelity output. Project resources are available at xx.
- Abstract(参考訳): Talking Face Generation (TFG)は、デジタル教育、映画とテレビの制作、eコマースのライブストリーミング、その他の関連分野に広く応用された、現実的でダイナミックな話しの肖像画を作成することを目的としている。
現在,Near Radiated Field (NeRF) や3D Gaussian sputtering (3DGS) に基づくTFG法が注目されている。
個々のターゲットの参照ビデオからパーソナライズされた機能を学び、保存し、現実的な会話ビデオを生成する。
モデルが十分な3D情報を収集し、リップオーディオマッピングをうまく学習するためには、従来の研究は通常、精巧な処理と数分間の参照ビデオの調整が必要で、常に数時間を要する。
長い参照ビデオの処理と適合の計算負担は,これらの手法の実用的価値を著しく制限するが,そのような参照ビデオの分だけ適合させることは本当に必要か?
実験ケーススタディでは,数秒程度の情報的参照ビデオセグメントを使用することで,全参照ビデオに匹敵する,あるいはそれ以上の性能が得られることが示された。
これは、ビデオ情報品質が長さよりもはるかに重要であることを示している。
この観察から着想を得たISExplore(Informative Segment Exploreの略)は,音声特徴量,唇運動振幅,カメラビュー数という3つの重要なデータ品質次元に基づいて,情報的5秒の参照ビデオセグメントを自動的に識別する,シンプルで効率の良いセグメント選択戦略である。
提案手法は,高忠実度出力を維持しつつ,NeRF法と3DGS法で5倍以上のデータ処理速度とトレーニング速度を向上することを示した。
プロジェクトのリソースはxx.orgで入手できる。
関連論文リスト
- TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文 参考訳(メタデータ) (2025-10-08T17:16:09Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video 3D Sampling for Self-supervised Representation Learning [13.135859819622855]
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
論文 参考訳(メタデータ) (2021-07-08T03:22:06Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。