論文の概要: Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
- arxiv url: http://arxiv.org/abs/2311.17009v2
- Date: Sun, 3 Dec 2023 12:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:47:34.667046
- Title: Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
- Title(参考訳): ゼロショットテキスト駆動モーショントランスファーのための時空間拡散特性
- Authors: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Yoni Kasten, Tali Dekel
- Abstract要約: 本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
- 参考スコア(独自算出の注目度): 27.278989809466392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new method for text-driven motion transfer - synthesizing a
video that complies with an input text prompt describing the target objects and
scene while maintaining an input video's motion and scene layout. Prior methods
are confined to transferring motion across two subjects within the same or
closely related object categories and are applicable for limited domains (e.g.,
humans). In this work, we consider a significantly more challenging setting in
which the target and source objects differ drastically in shape and
fine-grained motion characteristics (e.g., translating a jumping dog into a
dolphin). To this end, we leverage a pre-trained and fixed text-to-video
diffusion model, which provides us with generative and motion priors. The
pillar of our method is a new space-time feature loss derived directly from the
model. This loss guides the generation process to preserve the overall motion
of the input video while complying with the target object in terms of shape and
fine-grained motion traits.
- Abstract(参考訳): 本稿では,入力映像の動作とシーンレイアウトを維持しつつ,対象オブジェクトとシーンを記述する入力テキストプロンプトに対応する映像を合成する,テキスト駆動モーション転送の新しい手法を提案する。
従来の方法は、同一または近縁な対象カテゴリ内の2つの被験者間での移動に限られており、限られた領域(例えば人間)に適用される。
本研究では, 対象物と対象物とが, 形状や微粒な運動特性(例えば, 跳躍犬をイルカに翻訳するなど)で大きく異なる, 極めて困難な状況について考察する。
この目的のために,事前学習および固定されたテキストからビデオへの拡散モデルを活用して,生成と動きの優先順位付けを行う。
本手法の柱は, モデルから直接引き起こされた新しい時空間特徴損失である。
この損失は、入力映像の全体動作を、形状及び微粒な動き特性の点において、対象物に適合しつつ、生成過程を導出する。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Articulate That Object Part (ATOP): 3D Part Articulation from Text and Motion Personalization [9.231848716070257]
ATOP(Articulate That Object Part)は、モーションパーソナライゼーションに基づく新しい手法である。
テキスト入力により、現代のビデオ拡散のパワーをタップして、可塑性な動作サンプルを生成することができる。
すると、入力された3Dオブジェクトは、生成した動画を、私たちが表現したいオブジェクトにパーソナライズするためのイメージプロンプトを提供する。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Motion Representations for Articulated Animation [34.54825980226596]
異なる部分からなる関節オブジェクトをアニメーション化するための新しいモーション表現を提案する。
完全に教師なしの方法で、本手法は対象部品を識別し、駆動ビデオで追跡し、主軸を考慮して動きを推定する。
我々のモデルは様々なオブジェクトをアニメートすることができ、既存のベンチマークでは従来のメソッドを大きく上回っています。
論文 参考訳(メタデータ) (2021-04-22T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。