論文の概要: SynergyWarpNet: Attention-Guided Cooperative Warping for Neural Portrait Animation
- arxiv url: http://arxiv.org/abs/2512.17331v1
- Date: Fri, 19 Dec 2025 08:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.303777
- Title: SynergyWarpNet: Attention-Guided Cooperative Warping for Neural Portrait Animation
- Title(参考訳): SynergyWarpNet:ニューラルポートレートアニメーションのための注意誘導協調ワープ
- Authors: Shihang Li, Zhiqiang Gong, Minming Ye, Yue Gao, Wen Yao,
- Abstract要約: 本稿では,音声音声合成のための注意誘導型ワープフレームワークであるSynergyWarpNetを提案する。
我々のモデルは3段階のアニメーションを段階的に洗練する。
ベンチマークデータセットの総合評価は、最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 19.93753497685257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural portrait animation have demonstrated remarked potential for applications in virtual avatars, telepresence, and digital content creation. However, traditional explicit warping approaches often struggle with accurate motion transfer or recovering missing regions, while recent attention-based warping methods, though effective, frequently suffer from high complexity and weak geometric grounding. To address these issues, we propose SynergyWarpNet, an attention-guided cooperative warping framework designed for high-fidelity talking head synthesis. Given a source portrait, a driving image, and a set of reference images, our model progressively refines the animation in three stages. First, an explicit warping module performs coarse spatial alignment between the source and driving image using 3D dense optical flow. Next, a reference-augmented correction module leverages cross-attention across 3D keypoints and texture features from multiple reference images to semantically complete occluded or distorted regions. Finally, a confidence-guided fusion module integrates the warped outputs with spatially-adaptive fusing, using a learned confidence map to balance structural alignment and visual consistency. Comprehensive evaluations on benchmark datasets demonstrate state-of-the-art performance.
- Abstract(参考訳): ニューラルポートレートアニメーションの最近の進歩は、仮想アバター、テレプレゼンス、デジタルコンテンツ作成における応用の可能性を示している。
しかし、伝統的な明示的なワープ手法は、しばしば正確な動きの伝達や欠落した領域の回復に苦しむが、最近の注意に基づくワープ法は、有効ではあるが、しばしば高い複雑さと弱い幾何学的接地に悩まされる。
これらの問題に対処するために,高忠実度音声ヘッド合成のための注意誘導協調ワープフレームワークであるSynergyWarpNetを提案する。
ソースポートレート、駆動画像、参照画像のセットが与えられた場合、我々のモデルは3段階のアニメーションを段階的に洗練する。
まず、3次元高密度光流を用いて、ソースと駆動画像との間の粗い空間アライメントを行う。
次に、参照拡張補正モジュールは、複数の参照画像から意味的に完全に閉塞された領域または歪んだ領域への、3Dキーポイントとテクスチャ特徴間の相互アテンションを利用する。
最後に、信頼誘導融合モジュールは、歪んだ出力と空間適応的な融合を統合し、学習された信頼マップを使用して、構造的アライメントと視覚的一貫性のバランスをとる。
ベンチマークデータセットの総合評価は、最先端のパフォーマンスを示している。
関連論文リスト
- Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement [6.91111219679588]
Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。
まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
論文 参考訳(メタデータ) (2025-12-09T03:49:12Z) - WarpGAN: Warping-Guided 3D GAN Inversion with Style-Based Novel View Inpainting [68.77882703764142]
3D GANインバージョンは、訓練済みの3D GANの潜在空間に単一の画像を投影し、単発のノベルビュー合成を実現する。
本稿では,3D GANインバージョンに画像インバージョンを組み込むためのワーピング・アンド・インペインティング手法を提案し,新しい3D GANインバージョン手法WarpGANを提案する。
論文 参考訳(メタデータ) (2025-11-11T12:42:07Z) - Representing Animatable Avatar via Factorized Neural Fields [39.95141875395775]
フレーム毎のレンダリング結果は、フレームの一貫性を促進するために、ポーズ非依存のコンポーネントと対応するポーズ依存のコンポーネントに分解することができる。
入力ビデオ全体の粗い体輪郭のコヒーレントな保存を実現する。
我々のネットワークは、高周波の詳細を保存し、一貫した体輪郭を確保するために、NeRF(Near Radiance Field)に基づく最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-02T06:45:38Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。