論文の概要: DisMo: Disentangled Motion Representations for Open-World Motion Transfer
- arxiv url: http://arxiv.org/abs/2511.23428v1
- Date: Fri, 28 Nov 2025 18:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.018208
- Title: DisMo: Disentangled Motion Representations for Open-World Motion Transfer
- Title(参考訳): DisMo: オープンワールドモーショントランスファーのための遠方運動表現
- Authors: Thomas Ressler-Antal, Frank Fundel, Malek Ben Alaya, Stefan Andreas Baumann, Felix Krause, Ming Gui, Björn Ommer,
- Abstract要約: DisMoは、生のビデオデータから直接抽象的な動きを表現するための新しいパラダイムである。
私たちの表現は、外見、オブジェクトのアイデンティティ、ポーズといった静的情報とは独立しています。
学習した表現は下流の動作理解タスクに適していることを示す。
- 参考スコア(独自算出の注目度): 21.557843791867906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) and image-to-video (I2V) models, have enabled the creation of visually compelling and dynamic videos from simple textual descriptions or initial frames. However, these models often fail to provide an explicit representation of motion separate from content, limiting their applicability for content creators. To address this gap, we propose DisMo, a novel paradigm for learning abstract motion representations directly from raw video data via an image-space reconstruction objective. Our representation is generic and independent of static information such as appearance, object identity, or pose. This enables open-world motion transfer, allowing motion to be transferred across semantically unrelated entities without requiring object correspondences, even between vastly different categories. Unlike prior methods, which trade off motion fidelity and prompt adherence, are overfitting to source structure or drifting from the described action, our approach disentangles motion semantics from appearance, enabling accurate transfer and faithful conditioning. Furthermore, our motion representation can be combined with any existing video generator via lightweight adapters, allowing us to effortlessly benefit from future advancements in video models. We demonstrate the effectiveness of our method through a diverse set of motion transfer tasks. Finally, we show that the learned representations are well-suited for downstream motion understanding tasks, consistently outperforming state-of-the-art video representation models such as V-JEPA in zero-shot action classification on benchmarks including Something-Something v2 and Jester. Project page: https://compvis.github.io/DisMo
- Abstract(参考訳): 近年のテキスト・トゥ・ビデオ(T2V)や画像・トゥ・ビデオ(I2V)モデルの発展により、単純なテキスト記述や初期フレームから視覚的に魅力的な動的ビデオの作成が可能になった。
しかしながら、これらのモデルでは、コンテンツから分離した動きの明示的な表現が得られず、コンテンツクリエーターへの適用性が制限されることがしばしばある。
このギャップに対処するために,画像空間再構成の目的を通じて生のビデオデータから直接抽象的な動き表現を学習するための新しいパラダイムであるDisMoを提案する。
私たちの表現は、外見、オブジェクトのアイデンティティ、ポーズといった静的情報とは独立しています。
これにより、オープンワールドのモーション転送が可能となり、非常に異なるカテゴリ間であっても、オブジェクトの対応を必要とせずに、意味的に無関係なエンティティ間でのモーション転送が可能になる。
動作の忠実さと迅速な定着性を両立させる従来の手法とは違って,我々のアプローチは動きのセマンティクスを外見から切り離し,正確な移動と忠実な条件付けを可能にする。
さらに、我々の動き表現は、軽量アダプターを介して既存のビデオジェネレータと組み合わせることができるので、ビデオモデルの将来的な進歩の恩恵を受けることができる。
動作伝達タスクの多種多様なセットを用いて,本手法の有効性を実証する。
最後に、学習した表現は、ダウンストリーム動作理解タスクに適しており、Something v2 や Jester などのベンチマーク上でのゼロショット動作分類において、V-JEPA などの最先端ビデオ表現モデルよりも一貫して優れていることを示す。
プロジェクトページ: https://compvis.github.io/DisMo
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の空間的アライメントを必要とせず,様々な領域にまたがって一般化し,フルボディや顔再現といった様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。