論文の概要: Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
- arxiv url: http://arxiv.org/abs/2510.23581v1
- Date: Mon, 27 Oct 2025 17:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.65491
- Title: Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
- Title(参考訳): Lookahead Anchoring: オーディオ駆動型人間アニメーションにおけるキャラクタアイデンティティの保存
- Authors: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen,
- Abstract要約: Lookahead Anchoringは、時間的自己回帰生成におけるアイデンティティドリフトを防ぐ。
固定境界から方向ビーコンに変形する。
セルフキーフレーミングも可能で、参照イメージがルックアヘッドターゲットとして機能する。
- 参考スコア(独自算出の注目度): 75.71558917038838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
- Abstract(参考訳): 音声駆動型人間アニメーションモデルは、時間的自己回帰生成中にアイデンティティドリフトに悩まされることが多く、キャラクターは時間とともに徐々にアイデンティティを失う。
1つの解決策は、劣化を防ぐ中間の時間アンカーとしてキーフレームを生成することであるが、これは追加のキーフレーム生成ステージを必要とし、自然な動きのダイナミクスを制限することができる。
これを解決するために、Lookahead Anchoringを提案する。これは、キーフレームの内部ではなく、現在の生成ウィンドウの前の将来のタイムステップから、キーフレームを活用するものだ。
これにより、キーフレームが固定されたバウンダリから方向ビーコンに変換される。モデルは、即時オーディオキューに応答しながら、永続的なガイダンスを通じて一貫したアイデンティティを維持しながら、これらの将来のアンカーを継続的に追跡する。
これにより、参照イメージがルックアヘッドターゲットとして機能し、キーフレーム生成を完全に不要にする、セルフキーフレーミングが可能になる。
時間的視線距離が表現性と一貫性のバランスを自然に制御していることが分かる。
最近の3つのアニメーションモデルに適用すると、Lookahead Anchoringは優れた唇同期、アイデンティティ保存、視覚的品質を実現し、複数の異なるアーキテクチャにおける時間条件の改善を示す。
ビデオの結果は以下のリンクで見ることができる。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective [15.69417162113696]
AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-15T15:34:02Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation [37.27908280809964]
KeyFaceは、顔アニメーションのための新しい2段階拡散ベースのフレームワークである。
最初の段階では、モデルは遷移の間のギャップを埋め、スムーズかつ時間的コヒーレンスを保証する。
リアリズムをさらに強化するため、連続的な感情表現を取り入れ、幅広い非音声発声(NSV)を扱う。
実験の結果,KeyFaceは長期間にわたって自然なコヒーレントな顔アニメーションを生成する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-03T16:31:55Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。