論文の概要: Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer
- arxiv url: http://arxiv.org/abs/2406.06508v1
- Date: Mon, 10 Jun 2024 17:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:39:47.946102
- Title: Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer
- Title(参考訳): モンキーシー, モンキード:ゼロショット運動伝達のための運動拡散における自己注意のハーネス
- Authors: Sigal Raab, Inbar Gat, Nathan Sala, Guy Tevet, Rotem Shalev-Arkushin, Ohad Fried, Amit H. Bermano, Daniel Cohen-Or,
- Abstract要約: 既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
- 参考スコア(独自算出の注目度): 55.109778609058154
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given the remarkable results of motion synthesis with diffusion models, a natural question arises: how can we effectively leverage these models for motion editing? Existing diffusion-based motion editing methods overlook the profound potential of the prior embedded within the weights of pre-trained models, which enables manipulating the latent feature space; hence, they primarily center on handling the motion space. In this work, we explore the attention mechanism of pre-trained motion diffusion models. We uncover the roles and interactions of attention elements in capturing and representing intricate human motion patterns, and carefully integrate these elements to transfer a leader motion to a follower one while maintaining the nuanced characteristics of the follower, resulting in zero-shot motion transfer. Editing features associated with selected motions allows us to confront a challenge observed in prior motion diffusion approaches, which use general directives (e.g., text, music) for editing, ultimately failing to convey subtle nuances effectively. Our work is inspired by how a monkey closely imitates what it sees while maintaining its unique motion patterns; hence we call it Monkey See, Monkey Do, and dub it MoMo. Employing our technique enables accomplishing tasks such as synthesizing out-of-distribution motions, style transfer, and spatial editing. Furthermore, diffusion inversion is seldom employed for motions; as a result, editing efforts focus on generated motions, limiting the editability of real ones. MoMo harnesses motion inversion, extending its application to both real and generated motions. Experimental results show the advantage of our approach over the current art. In particular, unlike methods tailored for specific applications through training, our approach is applied at inference time, requiring no training. Our webpage is at https://monkeyseedocg.github.io.
- Abstract(参考訳): 拡散モデルによる運動合成の顕著な結果を考えると、自然な疑問が生じる。
既存の拡散に基づく運動編集手法は、事前訓練されたモデルの重みに埋め込まれた事前のポテンシャルを見落とし、潜在特徴空間を操作することができる。
本研究では,事前学習した運動拡散モデルの注意機構について検討する。
我々は、複雑な人間の動きパターンを捉え、表現する際、注目要素の役割と相互作用を明らかにし、これらの要素を慎重に統合して、従者のニュアンスな特性を維持しつつ、従者へのリーダーの動きを伝達し、ゼロショットのモーション伝達をもたらす。
選択した動きに関連付けられた特徴を編集することで、編集に一般的な指示(例えば、テキスト、音楽)を使い、最終的には微妙なニュアンスを効果的に伝達できないような、事前の運動拡散アプローチで観察される課題に直面することができる。
私たちの研究は、猿が独自の動きパターンを維持しながら見たものをいかにうまく模倣するかにインスピレーションを受けています。
本手法を用いることで,配信外動作の合成,スタイル転送,空間編集といったタスクを実現できる。
さらに、拡散インバージョンはモーションにはほとんど使われず、結果として、編集作業は生成されたモーションに焦点を合わせ、実際のモーションの編集可能性を制限する。
MoMoは動きの反転を利用して、その応用を実動と生成運動の両方に拡張する。
実験の結果,現在の技術に対するアプローチの利点が示された。
特に、トレーニングを通じて特定のアプリケーションに適した方法とは異なり、我々のアプローチは推論時に適用され、トレーニングを必要としない。
私たちのWebページはhttps://monkeyseedocg.github.io.comです。
関連論文リスト
- MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms [12.621553130655945]
我々は,注目マップを操作することで,シンプルかつ効果的な動作編集手法を多目的に開発する。
提案手法は,優れた説明性を備えた優れた生成・編集能力を有する。
論文 参考訳(メタデータ) (2024-10-24T17:59:45Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。