論文の概要: Learning to Animate Images from A Few Videos to Portray Delicate Human Actions
- arxiv url: http://arxiv.org/abs/2503.00276v1
- Date: Sat, 01 Mar 2025 01:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:20.392654
- Title: Learning to Animate Images from A Few Videos to Portray Delicate Human Actions
- Title(参考訳): ごく少数のビデオから画像を切り離し、人間の行動を再現するポートレイ
- Authors: Haoxin Li, Yingchen Yu, Qilong Wu, Hanwang Zhang, Boyang Li, Song Bai,
- Abstract要約: 少数のビデオから人間の行動をアニメーション化するための学習課題について検討する。
動き特徴とフレーム間対応関係を整列させることにより、動きの一般化を改善するFLASHを提案する。
実験により、FLASHは、目に見えない人間やシーンの外観の画像を、特定のアクションに効果的に一致させることが示されている。
- 参考スコア(独自算出の注目度): 80.61838364885482
- License:
- Abstract: Despite recent progress, video generative models still struggle to animate human actions from static images, particularly when handling uncommon actions whose training data are limited. In this paper, we investigate the task of learning to animate human actions from a small number of videos -- 16 or fewer -- which is highly valuable in real-world applications like video and movie production. Few-shot learning of generalizable motion patterns while ensuring smooth transitions from the initial reference image is exceedingly challenging. We propose FLASH (Few-shot Learning to Animate and Steer Humans), which improves motion generalization by aligning motion features and inter-frame correspondence relations between videos that share the same motion but have different appearances. This approach minimizes overfitting to visual appearances in the limited training data and enhances the generalization of learned motion patterns. Additionally, FLASH extends the decoder with additional layers to compensate lost details in the latent space, fostering smooth transitions from the initial reference image. Experiments demonstrate that FLASH effectively animates images with unseen human or scene appearances into specified actions while maintaining smooth transitions from the reference image.
- Abstract(参考訳): 近年の進歩にもかかわらず、ビデオ生成モデルは静的画像から人間の行動をアニメーション化するのに苦戦している。
本稿では,ビデオや映画制作などの現実的な応用において非常に有用な,少数のビデオ(16本以下)から人間の行動をアニメーションする学習の課題について検討する。
初期参照画像からのスムーズな遷移を確実にしながら、一般化可能な動きパターンの少ない学習は極めて困難である。
FLASH (Few-shot Learning to Animate and Steer Humans) は、動き特徴と、同じ動きを共有しながら外観が異なる動画間のフレーム間の対応関係を整列させることにより、動きの一般化を改善する。
このアプローチは、限られたトレーニングデータにおける視覚的外観への過度な適合を最小化し、学習された動きパターンの一般化を強化する。
さらに、FLASHはデコーダを拡張し、遅延空間における失われた詳細を補償し、初期参照画像からのスムーズな遷移を促進する。
実験により、FLASHは、参照画像からのスムーズな遷移を維持しながら、目に見えない人間やシーンの外観の画像を特定のアクションに効果的に一致させることを示した。
関連論文リスト
- Animate-X: Universal Character Image Animation with Enhanced Motion Representation [42.73097432203482]
Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。
我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。
また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-10-14T09:06:55Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - AnimateAnything: Fine-Grained Open Domain Image Animation with Motion
Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。
本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。
オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-21T03:47:54Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。