論文の概要: EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation
- arxiv url: http://arxiv.org/abs/2503.18552v2
- Date: Sat, 24 May 2025 04:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.85655
- Title: EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation
- Title(参考訳): EvAnimate:人間アニメーションのためのイベントコンディショニング映像生成
- Authors: Qiang Qu, Ming Li, Xiaoming Chen, Tongliang Liu,
- Abstract要約: EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
- 参考スコア(独自算出の注目度): 58.41979933166173
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conditional human animation traditionally animates static reference images using pose-based motion cues extracted from video data. However, these video-derived cues often suffer from low temporal resolution, motion blur, and unreliable performance under challenging lighting conditions. In contrast, event cameras inherently provide robust and high temporal-resolution motion information, offering resilience to motion blur, low-light environments, and exposure variations. In this paper, we propose EvAnimate, the first method leveraging event streams as robust and precise motion cues for conditional human image animation. Our approach is fully compatible with diffusion-based generative models, enabled by encoding asynchronous event data into a specialized three-channel representation with adaptive slicing rates and densities. High-quality and temporally coherent animations are achieved through a dual-branch architecture explicitly designed to exploit event-driven dynamics, significantly enhancing performance under challenging real-world conditions. Enhanced cross-subject generalization is further achieved using specialized augmentation strategies. To facilitate future research, we establish a new benchmarking, including simulated event data for training and validation, and a real-world event dataset capturing human actions under normal and challenging scenarios. The experiment results demonstrate that EvAnimate achieves high temporal fidelity and robust performance in scenarios where traditional video-derived cues fall short.
- Abstract(参考訳): 条件付き人間のアニメーションは、伝統的にビデオデータから抽出されたポーズベースのモーションキューを使用して静的参照画像と一致している。
しかし、これらのビデオ由来のキューは、しばしば、困難な照明条件下での時間分解能の低下、動きのぼやけ、信頼性の低いパフォーマンスに悩まされる。
対照的に、イベントカメラは本質的に、頑丈で高時間分解能のモーション情報を提供し、動きのぼやけ、低照度環境、露出変動に対するレジリエンスを提供する。
本稿では,イベントストリームを条件付き人体画像アニメーションの堅牢かつ高精度な動作キューとして活用する最初の方法であるEvAnimateを提案する。
提案手法は,非同期イベントデータを適応スライシング率と密度を持つ特別な3チャネル表現に符号化することで,拡散に基づく生成モデルと完全に互換性がある。
高品質で時間的コヒーレントなアニメーションは、イベント駆動のダイナミックスを活用するように設計されたデュアルブランチアーキテクチャによって実現され、現実の挑戦的な条件下でパフォーマンスを大幅に向上する。
拡張されたクロスオブジェクトの一般化は、特別な拡張戦略によってさらに達成される。
今後の研究を容易にするため、トレーニングと検証のためのシミュレーションイベントデータや、正常で困難なシナリオ下での人間のアクションをキャプチャする実世界のイベントデータセットなど、新たなベンチマークを確立する。
実験の結果,従来の映像由来のキューが短いシナリオでは,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現していることがわかった。
関連論文リスト
- EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation [16.22243283808375]
Event-Guided Video Diffusion Model (EGVD) は、事前訓練された安定したビデオ拡散モデルの強力な先行性を活用する新しいフレームワークである。
提案手法は,RGBフレームとイベント信号とを効果的に統合して拡散過程を導出するマルチモーダル運動条件生成器(MMCG)を特徴とする。
実データとシミュレーションデータの両方の実験により、EGVDは大きな動きを扱う既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T06:33:32Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。