論文の概要: Motion Modes: What Could Happen Next?
- arxiv url: http://arxiv.org/abs/2412.00148v1
- Date: Fri, 29 Nov 2024 01:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:07.396781
- Title: Motion Modes: What Could Happen Next?
- Title(参考訳): モーションモード:次は何が起こるのか?
- Authors: Karran Pandey, Matheus Gadelha, Yannick Hold-Geoffroy, Karan Singh, Niloy J. Mitra, Paul Guerrero,
- Abstract要約: 現在のビデオ生成モデルは、しばしばカメラの動きや他のシーンの変化とオブジェクトの動きを絡ませる。
我々は、事前訓練された画像間ジェネレータの潜伏分布を探索する、トレーニング不要なアプローチであるMotion Modesを紹介する。
我々は、物体とカメラの動きを歪ませるように設計されたエネルギー関数で導かれたフロージェネレータを用いてこれを実現する。
- 参考スコア(独自算出の注目度): 45.24111039863531
- License:
- Abstract: Predicting diverse object motions from a single static image remains challenging, as current video generation models often entangle object movement with camera motion and other scene changes. While recent methods can predict specific motions from motion arrow input, they rely on synthetic data and predefined motions, limiting their application to complex scenes. We introduce Motion Modes, a training-free approach that explores a pre-trained image-to-video generator's latent distribution to discover various distinct and plausible motions focused on selected objects in static images. We achieve this by employing a flow generator guided by energy functions designed to disentangle object and camera motion. Additionally, we use an energy inspired by particle guidance to diversify the generated motions, without requiring explicit training data. Experimental results demonstrate that Motion Modes generates realistic and varied object animations, surpassing previous methods and even human predictions regarding plausibility and diversity. Project Webpage: https://motionmodes.github.io/
- Abstract(参考訳): 静止画像からさまざまな物体の動きを予測することは、現在のビデオ生成モデルは、しばしばカメラの動きや他のシーンの変化とオブジェクトの動きを絡み合わせるため、依然として困難である。
最近の方法では、モーションアロー入力から特定の動きを予測することができるが、それらは合成データと事前定義された動きに依存し、複雑なシーンに限定する。
我々は、静止画像中の選択対象に焦点を絞った様々な異なる可視的な動きを発見するために、事前訓練された画像から映像生成装置の潜伏分布を探索する、トレーニング不要なアプローチであるモーションモードを導入する。
我々は、物体とカメラの動きを歪ませるように設計されたエネルギー関数で導かれたフロージェネレータを用いてこれを実現する。
さらに、粒子誘導にインスパイアされたエネルギーを用いて、明示的なトレーニングデータを必要とせず、生成した動きを多様化する。
実験により、モーションモードは、従来の手法を超越したリアルで多様なオブジェクトアニメーションや、妥当性と多様性に関する人間の予測を生成できることが示された。
プロジェクトWebページ: https://motionmodes.github.io/
関連論文リスト
- ViMo: Generating Motions from Casual Videos [34.19904765033005]
ビデオから動画へ生成する新しいフレームワーク(ViMo)を提案する。
ViMoは、未完成のビデオコンテンツの膨大な量を生かして、多種多様な3Dモーションを作り出すことができる。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T03:57:35Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。