論文の概要: Revising Second Order Terms in Deep Animation Video Coding
- arxiv url: http://arxiv.org/abs/2510.23561v1
- Date: Mon, 27 Oct 2025 17:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.644684
- Title: Revising Second Order Terms in Deep Animation Video Coding
- Title(参考訳): ディープアニメーションビデオ符号化における2次項の改訂
- Authors: Konstantin Schmidt, Thomas Richter,
- Abstract要約: 第1次運動モデル(英: First Order Motion Model)は、キーポイントから得られる非常に小さな動き情報に基づいて人間の頭部を識別する生成モデルである。
FOMMのジャコビアン変換を大域回転で置き換えることにより,頭部回転のある項目において,システムの性能が向上することを示す。
また,識別器の安定化に最先端の正規化技術を適用し,視覚的に魅力的な映像を生成する。
- 参考スコア(独自算出の注目度): 0.21485350418225238
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: First Order Motion Model is a generative model that animates human heads based on very little motion information derived from keypoints. It is a promising solution for video communication because first it operates at very low bitrate and second its computational complexity is moderate compared to other learning based video codecs. However, it has strong limitations by design. Since it generates facial animations by warping source-images, it fails to recreate videos with strong head movements. This works concentrates on one specific kind of head movements, namely head rotations. We show that replacing the Jacobian transformations in FOMM by a global rotation helps the system to perform better on items with head-rotations while saving 40% to 80% of bitrate on P-frames. Moreover, we apply state-of-the-art normalization techniques to the discriminator to stabilize the adversarial training which is essential for generating visually appealing videos. We evaluate the performance by the learned metics LPIPS and DISTS to show the success our optimizations.
- Abstract(参考訳): 第1次運動モデル(英: First Order Motion Model)は、キーポイントから得られる非常に小さな動き情報に基づいて人間の頭部を識別する生成モデルである。
これはビデオ通信において有望なソリューションである。なぜなら、まず、非常に低ビットレートで動作し、次に計算複雑性は、他の学習ベースのビデオコーデックに比べて適度であるからである。
しかし、設計上は強い制約がある。
ソースイメージを歪ませることで顔のアニメーションを生成するため、強い頭の動きを持つビデオの再生に失敗する。
この研究は、特定の種類の頭部運動、すなわち頭部回転に集中している。
FOMMのジャコビアン変換を大域回転で置き換えることで,Pフレーム上で40%から80%のビットレートを節約しながら,頭部回転のある項目においてより優れた性能が得られることを示す。
さらに,映像生成に不可欠な対角的トレーニングを安定させるために,最先端の正規化手法を判別器に適用する。
本研究では,LPIPS と DISTS による性能評価を行い,最適化の成功例を示す。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [79.4785166021062]
本稿では,対話型ビデオジェネレータPuppet-Masterを紹介した。
Puppet-Masterは、他のモーションコンディショニングビデオジェネレータとは異なり、パートレベルのモーションを生成することを学習している。
Puppet-Masterはドメイン外の実際のイメージを一般化し、実世界のベンチマークで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。