論文の概要: We never go out of Style: Motion Disentanglement by Subspace
Decomposition of Latent Space
- arxiv url: http://arxiv.org/abs/2306.00559v1
- Date: Thu, 1 Jun 2023 11:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:43:26.188070
- Title: We never go out of Style: Motion Disentanglement by Subspace
Decomposition of Latent Space
- Title(参考訳): 私たちは決してスタイルから外れない:潜伏空間のサブスペース分解による動きの絡み合い
- Authors: Rishubh Parihar, Raghav Magazine, Piyush Tiwari, R. Venkatesh Babu
- Abstract要約: 本稿では,事前学習画像GANモデルを用いて映像中の動きを分解する新しい手法を提案する。
広範に使われているスタイルベースGANモデルの潜在空間において、非交叉運動部分空間が発見される。
顔と車のデータセット上での運動部分空間の絡み合い特性を評価する。
- 参考スコア(独自算出の注目度): 38.54517335215281
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real-world objects perform complex motions that involve multiple independent
motion components. For example, while talking, a person continuously changes
their expressions, head, and body pose. In this work, we propose a novel method
to decompose motion in videos by using a pretrained image GAN model. We
discover disentangled motion subspaces in the latent space of widely used
style-based GAN models that are semantically meaningful and control a single
explainable motion component. The proposed method uses only a few $(\approx10)$
ground truth video sequences to obtain such subspaces. We extensively evaluate
the disentanglement properties of motion subspaces on face and car datasets,
quantitatively and qualitatively. Further, we present results for multiple
downstream tasks such as motion editing, and selective motion transfer, e.g.
transferring only facial expressions without training for it.
- Abstract(参考訳): 現実世界のオブジェクトは、複数の独立したモーションコンポーネントを含む複雑な動きを実行する。
例えば、話している間、人は表情、頭、身体のポーズを継続的に変えます。
本研究では,事前学習したganモデルを用いて映像中の動きを分解する新しい手法を提案する。
意味的に意味のあるスタイルベースganモデルの潜在空間における不連続な動き部分空間を発見し,単一の説明可能な動き成分を制御する。
提案手法は,数$(\approx10)$の真理ビデオシーケンスのみを用いて,そのような部分空間を得る。
顔および車載データセットにおける運動部分空間の偏角特性を定量的に定量的に評価した。
さらに,複数の下流タスク,例えば顔表情のみをトレーニングせずに伝達する動作編集や選択的動き伝達について結果を示す。
関連論文リスト
- Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。