論文の概要: EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation
- arxiv url: http://arxiv.org/abs/2503.18552v1
- Date: Mon, 24 Mar 2025 11:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:31.851324
- Title: EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation
- Title(参考訳): EvAnimate:人間アニメーションのためのイベントコンディショニング映像生成
- Authors: Qiang Qu, Ming Li, Xiaoming Chen, Tongliang Liu,
- Abstract要約: EvAnimateは、静的な人間のイメージをアニメーションするためのモーションキューとしてイベントストリームを活用するフレームワークである。
EvAnimateは、従来のビデオ由来のキューが短いシナリオにおいて、高い時間的忠実度とロバストなパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 58.41979933166173
- License:
- Abstract: Conditional human animation transforms a static reference image into a dynamic sequence by applying motion cues such as poses. These motion cues are typically derived from video data but are susceptible to limitations including low temporal resolution, motion blur, overexposure, and inaccuracies under low-light conditions. In contrast, event cameras provide data streams with exceptionally high temporal resolution, a wide dynamic range, and inherent resistance to motion blur and exposure issues. In this work, we propose EvAnimate, a framework that leverages event streams as motion cues to animate static human images. Our approach employs a specialized event representation that transforms asynchronous event streams into 3-channel slices with controllable slicing rates and appropriate slice density, ensuring compatibility with diffusion models. Subsequently, a dual-branch architecture generates high-quality videos by harnessing the inherent motion dynamics of the event streams, thereby enhancing both video quality and temporal consistency. Specialized data augmentation strategies further enhance cross-person generalization. Finally, we establish a new benchmarking, including simulated event data for training and validation, and a real-world event dataset capturing human actions under normal and extreme scenarios. The experiment results demonstrate that EvAnimate achieves high temporal fidelity and robust performance in scenarios where traditional video-derived cues fall short.
- Abstract(参考訳): 条件付き人間のアニメーションは、ポーズのようなモーションキューを適用して静的な参照画像を動的シーケンスに変換する。
これらのモーションキューは典型的にはビデオデータから導かれるが、低時間分解能、運動のぼかし、露出過多、低照度条件下での不正確さなどの制限を受けやすい。
対照的に、イベントカメラは、非常に高い時間分解能、広いダイナミックレンジ、モーションぼけや露出問題に対する固有の耐性を備えたデータストリームを提供する。
本研究では、イベントストリームをモーションキューとして活用し、静的な人間のイメージをアニメーション化するフレームワークであるEvAnimateを提案する。
提案手法では,非同期イベントストリームを制御可能なスライスレートと適切なスライス密度で3チャンネルスライスに変換することで,拡散モデルとの互換性を確保する。
その後、デュアルブランチアーキテクチャは、イベントストリームの固有モーションダイナミクスを活用して高品質なビデオを生成し、ビデオ品質と時間的一貫性を両立させる。
特別なデータ拡張戦略により、クロスパーソンの一般化がさらに強化される。
最後に、トレーニングとバリデーションのためのシミュレーションイベントデータと、通常のシナリオと極端なシナリオ下での人間のアクションをキャプチャする実世界のイベントデータセットを含む、新しいベンチマークを確立する。
実験の結果,従来の映像由来のキューが短いシナリオでは,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現していることがわかった。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。