論文の概要: Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
- arxiv url: http://arxiv.org/abs/2311.17009v2
- Date: Sun, 3 Dec 2023 12:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:47:34.667046
- Title: Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
- Title(参考訳): ゼロショットテキスト駆動モーショントランスファーのための時空間拡散特性
- Authors: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Yoni Kasten, Tali Dekel
- Abstract要約: 本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
- 参考スコア(独自算出の注目度): 27.278989809466392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new method for text-driven motion transfer - synthesizing a
video that complies with an input text prompt describing the target objects and
scene while maintaining an input video's motion and scene layout. Prior methods
are confined to transferring motion across two subjects within the same or
closely related object categories and are applicable for limited domains (e.g.,
humans). In this work, we consider a significantly more challenging setting in
which the target and source objects differ drastically in shape and
fine-grained motion characteristics (e.g., translating a jumping dog into a
dolphin). To this end, we leverage a pre-trained and fixed text-to-video
diffusion model, which provides us with generative and motion priors. The
pillar of our method is a new space-time feature loss derived directly from the
model. This loss guides the generation process to preserve the overall motion
of the input video while complying with the target object in terms of shape and
fine-grained motion traits.
- Abstract(参考訳): 本稿では,入力映像の動作とシーンレイアウトを維持しつつ,対象オブジェクトとシーンを記述する入力テキストプロンプトに対応する映像を合成する,テキスト駆動モーション転送の新しい手法を提案する。
従来の方法は、同一または近縁な対象カテゴリ内の2つの被験者間での移動に限られており、限られた領域(例えば人間)に適用される。
本研究では, 対象物と対象物とが, 形状や微粒な運動特性(例えば, 跳躍犬をイルカに翻訳するなど)で大きく異なる, 極めて困難な状況について考察する。
この目的のために,事前学習および固定されたテキストからビデオへの拡散モデルを活用して,生成と動きの優先順位付けを行う。
本手法の柱は, モデルから直接引き起こされた新しい時空間特徴損失である。
この損失は、入力映像の全体動作を、形状及び微粒な動き特性の点において、対象物に適合しつつ、生成過程を導出する。
関連論文リスト
- MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Correspondence-free online human motion retargeting [1.7008985510992145]
本研究では,対象対象と対象対象者の動作とを一致させる,教師なし動作のためのデータ駆動型フレームワークを提案する。
本手法は,震源形状と震源形状の対応を必要とせず,震源運動の異なるフレーム間の時間的対応も必要としない。
これにより、ターゲットの形状を動き中の人間の任意のシーケンスでアニメーションすることができる。
論文 参考訳(メタデータ) (2023-02-01T16:23:21Z) - Motion Representations for Articulated Animation [34.54825980226596]
異なる部分からなる関節オブジェクトをアニメーション化するための新しいモーション表現を提案する。
完全に教師なしの方法で、本手法は対象部品を識別し、駆動ビデオで追跡し、主軸を考慮して動きを推定する。
我々のモデルは様々なオブジェクトをアニメートすることができ、既存のベンチマークでは従来のメソッドを大きく上回っています。
論文 参考訳(メタデータ) (2021-04-22T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。