論文の概要: Human MotionFormer: Transferring Human Motions with Vision Transformers
- arxiv url: http://arxiv.org/abs/2302.11306v1
- Date: Wed, 22 Feb 2023 11:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:22:15.221085
- Title: Human MotionFormer: Transferring Human Motions with Vision Transformers
- Title(参考訳): human motionformer:視覚トランスフォーマーによる人間の動きの伝達
- Authors: Hongyu Liu and Xintong Han and ChengBin Jin and Huawei Wei and Zhe Lin
and Faqiang Wang and Haoye Dong and Yibing Song and Jia Xu and Qifeng Chen
- Abstract要約: 人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
- 参考スコア(独自算出の注目度): 73.48118882676276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion transfer aims to transfer motions from a target dynamic person
to a source static one for motion synthesis. An accurate matching between the
source person and the target motion in both large and subtle motion changes is
vital for improving the transferred motion quality. In this paper, we propose
Human MotionFormer, a hierarchical ViT framework that leverages global and
local perceptions to capture large and subtle motion matching, respectively. It
consists of two ViT encoders to extract input features (i.e., a target motion
image and a source human image) and a ViT decoder with several cascaded blocks
for feature matching and motion transfer. In each block, we set the target
motion feature as Query and the source person as Key and Value, calculating the
cross-attention maps to conduct a global feature matching. Further, we
introduce a convolutional layer to improve the local perception after the
global cross-attention computations. This matching process is implemented in
both warping and generation branches to guide the motion transfer. During
training, we propose a mutual learning loss to enable the co-supervision
between warping and generation branches for better motion representations.
Experiments show that our Human MotionFormer sets the new state-of-the-art
performance both qualitatively and quantitatively. Project page:
\url{https://github.com/KumapowerLIU/Human-MotionFormer}
- Abstract(参考訳): 人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
移動運動品質を向上させるためには、大小とも微妙な動きの変化においても、音源と目標運動との正確なマッチングが不可欠である。
本稿では,大域的および局所的な知覚をそれぞれ活用し,大きな動きと微妙な動きのマッチングをそれぞれ捉える階層型vitフレームワークであるhuman motionformerを提案する。
入力特徴を抽出する2つのViTエンコーダ(ターゲットモーションイメージとソースヒューマンイメージ)と、特徴マッチングとモーション転送のためのいくつかのカスケードブロックを備えたViTデコーダで構成される。
各ブロックにおいて、対象の動作特徴をクエリとして、ソースの人物をキーと値として設定し、相互接続マップを計算してグローバル特徴マッチングを行う。
さらに,グローバルなクロスアテンション計算後の局所認識を改善するために,畳み込み層を導入する。
このマッチングプロセスはワーピングとジェネレーションの両方で実装され、モーション転送をガイドする。
トレーニング中、より優れた動作表現のためのワープとジェネレーションブランチの協調制御を可能にするための相互学習損失を提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスを設定する。
プロジェクトページ: \url{https://github.com/KumapowerLIU/Human-MotionFormer}
関連論文リスト
- Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer [96.64111294772141]
HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。
本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
論文 参考訳(メタデータ) (2022-09-01T14:03:51Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。