論文の概要: Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation
- arxiv url: http://arxiv.org/abs/2307.00574v5
- Date: Fri, 22 Mar 2024 02:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-25 23:38:50.937884
- Title: Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation
- Title(参考訳): 時間的一貫した人間のアニメーションのための双方向時間拡散モデル
- Authors: Tserendorj Adiya, Jae Shin Yoon, Jungeun Lee, Sanghun Kim, Hwasup Lim,
- Abstract要約: 本研究では,1つの画像,ビデオ,ランダムノイズから時間的コヒーレントな人間のアニメーションを生成する手法を提案する。
両方向の時間的モデリングは、人間の外見の運動あいまいさを大幅に抑制することにより、生成ネットワーク上の時間的コヒーレンスを強制すると主張している。
- 参考スコア(独自算出の注目度): 5.78796187123888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method to generate temporally coherent human animation from a single image, a video, or a random noise. This problem has been formulated as modeling of an auto-regressive generation, i.e., to regress past frames to decode future frames. However, such unidirectional generation is highly prone to motion drifting over time, generating unrealistic human animation with significant artifacts such as appearance distortion. We claim that bidirectional temporal modeling enforces temporal coherence on a generative network by largely suppressing the motion ambiguity of human appearance. To prove our claim, we design a novel human animation framework using a denoising diffusion model: a neural network learns to generate the image of a person by denoising temporal Gaussian noises whose intermediate results are cross-conditioned bidirectionally between consecutive frames. In the experiments, our method demonstrates strong performance compared to existing unidirectional approaches with realistic temporal coherence.
- Abstract(参考訳): 本研究では,1つの画像,ビデオ,ランダムノイズから時間的コヒーレントな人間のアニメーションを生成する手法を提案する。
この問題は、過去のフレームを復号化して将来のフレームを復号する自動回帰生成のモデリングとして定式化されている。
しかし、このような一方向生成は時間の経過とともに動きが漂う傾向が高く、外見の歪みのような重要なアーチファクトを持つ非現実的な人間のアニメーションを生成する。
両方向の時間的モデリングは、人間の外見の運動のあいまいさを大幅に抑制することにより、生成ネットワーク上の時間的コヒーレンスを強制すると主張している。
ニューラルネットワークは,中間結果を連続フレーム間で双方向に条件付けした時相ガウス雑音を復調することにより,人の画像を生成することを学習する。
実験では,現実的な時間的コヒーレンスを持つ一方向アプローチと比較して高い性能を示す。
関連論文リスト
- Causal Motion Diffusion Models for Autoregressive Motion Generation [19.61051102039212]
因果運動拡散モデル(CMDM)は自己回帰運動生成のための統合されたフレームワークである。
CMDMはMAC-VAE(Motion-Language-Aligned Causal VAE)の上に構築され、動作シーケンスを時間的因果潜在表現にエンコードする。
HumanML3DとSnapMoGenの実験では、CMDMは、意味的忠実度と時間的滑らかさの両方において、既存の拡散モデルと自己回帰モデルより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-26T03:58:25Z) - StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-26T15:41:24Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search [8.993664585683055]
拡散雑音探索を用いた新しい強度制御型音声ヘッド生成フレームワークである textbfTalk を紹介する。
まず,動作特徴を静的な外観から切り離すスタブファン光フロー誘導時間モジュール(OFT)を提案する。
第2に,マルチモーダル・教師・学生の知識蒸留により得られたtextbfAudio-to-Intensity (A2I) モデルを提案する。
論文 参考訳(メタデータ) (2025-11-10T08:28:13Z) - Temporal Differential Fields for 4D Motion Modeling via Image-to-Video Synthesis [43.47331808314336]
既存の方法は、開始フレームと終了フレームを含む高線量イメージングスキャンが同時に存在する限り、時間運動をシミュレートすることはできない。
我々は,第1フレームと相似して所定の長さの将来のフレームを予測する画像・ビデオ・フレームワークを用いて,通常の動作過程を先駆的にシミュレートする。
本手法は,知覚的類似性や時間的整合性に関する他の競合手法に対抗して,内在性運動軌跡に沿って4次元映像をシミュレートする。
論文 参考訳(メタデータ) (2025-05-22T23:01:48Z) - FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait [3.3672851080270374]
FLOATは,フローマッチング生成モデルに基づく音声駆動型音声画像生成手法である。
生成的モデリングを画素ベースの潜在空間から学習された潜在空間にシフトし、時間的に一貫した運動の効率的な設計を可能にする。
本手法は音声による感情強調をサポートし,表現運動の自然な取り込みを可能にする。
論文 参考訳(メタデータ) (2024-12-02T02:50:07Z) - Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - RecMoDiffuse: Recurrent Flow Diffusion for Human Motion Generation [5.535590461577558]
RecMoDiffuseは時間モデリングのための新しい再帰拡散定式化である。
人間の動作の時間的モデリングにおけるRecMoDiffuseの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T11:25:37Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。
静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。
WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文 参考訳(メタデータ) (2024-03-25T17:59:40Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - Multi-frame sequence generator of 4D human body motion [0.0]
本稿では,翻訳と回転を含むグローバルな移動をエンコードする自動エンコーダに基づく生成フレームワークと,単一遅延空間ベクトルとしての多フレーム時間運動を提案する。
本研究は,低誤差境界内でのヒト形態素の4次元配列の再構成能力について検証した。
また,最初の人間のフレームから将来のフレームの4次元動作予測を行う手法の利点についても述べる。
論文 参考訳(メタデータ) (2021-06-07T13:56:46Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Latent Neural Differential Equations for Video Generation [10.127456032874978]
本稿では,映像生成の時間的ダイナミクスをモデル化するためのニューラル微分方程式の効果について検討する。
インセプションスコアは15.20で64$times$64の非条件ビデオ生成で新しい最先端モデルを生成する。
論文 参考訳(メタデータ) (2020-11-07T23:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。