論文の概要: Motion Diffusion Autoencoders: Enabling Attribute Manipulation in Human Motion Demonstrated on Karate Techniques
- arxiv url: http://arxiv.org/abs/2501.18729v1
- Date: Thu, 30 Jan 2025 20:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:54.634906
- Title: Motion Diffusion Autoencoders: Enabling Attribute Manipulation in Human Motion Demonstrated on Karate Techniques
- Title(参考訳): 運動拡散オートエンコーダ:空手技術を用いた人体動作における属性操作の実現
- Authors: Anthony Mendil, Felix Putze,
- Abstract要約: この研究は人間の動きの領域、より正確には空手の動きパターンに焦点を当てている。
人間の動作に対する属性操作を実現するための重要な要件の1つは、適切なポーズ表現である。
我々は、人間の骨格と運動軌跡の切り離しを可能にする新しい回転型ポーズ表現を設計し、同時に元の解剖学の正確な再構築を可能にした。
- 参考スコア(独自算出の注目度): 3.7402048789277824
- License:
- Abstract: Attribute manipulation deals with the problem of changing individual attributes of a data point or a time series, while leaving all other aspects unaffected. This work focuses on the domain of human motion, more precisely karate movement patterns. To the best of our knowledge, it presents the first success at manipulating attributes of human motion data. One of the key requirements for achieving attribute manipulation on human motion is a suitable pose representation. Therefore, we design a novel rotation-based pose representation that enables the disentanglement of the human skeleton and the motion trajectory, while still allowing an accurate reconstruction of the original anatomy. The core idea of the manipulation approach is to use a transformer encoder for discovering high-level semantics, and a diffusion probabilistic model for modeling the remaining stochastic variations. We show that the embedding space obtained from the transformer encoder is semantically meaningful and linear. This enables the manipulation of high-level attributes, by discovering their linear direction of change in the semantic embedding space and moving the embedding along said direction. The code and data are available at https://github.com/anthony-mendil/MoDiffAE.
- Abstract(参考訳): 属性操作は、データポイントや時系列の個々の属性を変更する問題を扱うが、他のすべての側面は影響を受けない。
この研究は人間の動きの領域、より正確には空手の動きパターンに焦点を当てている。
我々の知る限りでは、人間の動作データの属性を操作する最初の成功となる。
人間の動作に対する属性操作を実現するための重要な要件の1つは、適切なポーズ表現である。
そこで本研究では,人間の骨格と運動軌跡の切り離しが可能な回転型ポーズ表現を設計し,元の解剖学の正確な再構築を可能にした。
操作手法の中核となる考え方は、高レベルの意味論を発見するためのトランスフォーマーエンコーダと、残りの確率的変動をモデル化するための拡散確率モデルを使用することである。
変換器エンコーダから得られる埋め込み空間は意味論的かつ線形であることを示す。
これにより、意味的埋め込み空間の変化の線形方向を発見し、その方向に沿って埋め込みを移動させることで、高レベルの属性を操作できる。
コードとデータはhttps://github.com/anthony-mendil/MoDiffAEで公開されている。
関連論文リスト
- Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - Animatable Implicit Neural Representations for Creating Realistic
Avatars from Videos [63.16888987770885]
本稿では,マルチビュー映像からアニマタブルな人間モデルを構築することの課題について述べる。
線形ブレンドスキンアルゴリズムに基づくポーズ駆動変形場を提案する。
提案手法は,近年の人体モデリング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:56:59Z) - A Hierarchy-Aware Pose Representation for Deep Character Animation [2.47343886645587]
深層キャラクタアニメーションに適した動きモデリングのための頑健なポーズ表現を提案する。
我々の表現は、回転方向と位置方向を同時にエンコードする、よく定義された演算を持つ数学的抽象化である二重四元数に基づいている。
我々の表現は共通の動きを克服し、他の一般的な表現と比較してその性能を評価する。
論文 参考訳(メタデータ) (2021-11-27T14:33:24Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。