論文の概要: Diverse Dance Synthesis via Keyframes with Transformer Controllers
- arxiv url: http://arxiv.org/abs/2207.05906v1
- Date: Wed, 13 Jul 2022 00:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:09:02.601178
- Title: Diverse Dance Synthesis via Keyframes with Transformer Controllers
- Title(参考訳): 変圧器制御器を用いた鍵フレームによる異方性舞踊合成
- Authors: Junjun Pan, Siyuan Wang, Junxuan Bai, Ju Dai
- Abstract要約: 本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。
我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。
本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
- 参考スコア(独自算出の注目度): 10.23813069057791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing keyframe-based motion synthesis mainly focuses on the generation of
cyclic actions or short-term motion, such as walking, running, and transitions
between close postures. However, these methods will significantly degrade the
naturalness and diversity of the synthesized motion when dealing with complex
and impromptu movements, e.g., dance performance and martial arts. In addition,
current research lacks fine-grained control over the generated motion, which is
essential for intelligent human-computer interaction and animation creation. In
this paper, we propose a novel keyframe-based motion generation network based
on multiple constraints, which can achieve diverse dance synthesis via learned
knowledge. Specifically, the algorithm is mainly formulated based on the
recurrent neural network (RNN) and the Transformer architecture. The backbone
of our network is a hierarchical RNN module composed of two long short-term
memory (LSTM) units, in which the first LSTM is utilized to embed the posture
information of the historical frames into a latent space, and the second one is
employed to predict the human posture for the next frame. Moreover, our
framework contains two Transformer-based controllers, which are used to model
the constraints of the root trajectory and the velocity factor respectively, so
as to better utilize the temporal context of the frames and achieve
fine-grained motion control. We verify the proposed approach on a dance dataset
containing a wide range of contemporary dance. The results of three
quantitative analyses validate the superiority of our algorithm. The video and
qualitative experimental results demonstrate that the complex motion sequences
generated by our algorithm can achieve diverse and smooth motion transitions
between keyframes, even for long-term synthesis.
- Abstract(参考訳): 既存のキーフレームに基づく動作合成は、主に、歩行、走行、近接姿勢間の遷移といった、循環的動作や短期的な動きの生成に焦点を当てている。
しかし、これらの手法は、ダンスパフォーマンスや武道など、複雑で即興的な動きを扱う場合の合成動作の自然性や多様性を著しく低下させる。
加えて、現在の研究では、インテリジェントな人間とコンピュータのインタラクションとアニメーション作成に不可欠である、生成した動きのきめ細かい制御が欠けている。
本稿では,複数の制約に基づく新しいキーフレームベースモーション生成ネットワークを提案し,学習知識による多様なダンス合成を実現する。
具体的には、アルゴリズムは主にrecurrent neural network(rnn)とtransformerアーキテクチャに基づいて定式化されている。
ネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットから構成される階層的RNNモジュールであり、第1のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込むとともに、第2のLSTMを用いて次のフレームの姿勢を予測する。
さらに,本フレームワークには2つのトランスフォーマーベースコントローラが組み込まれており,それぞれのルート軌跡と速度係数の制約をモデル化し,フレームの時間的コンテキストをよりよく活用し,微粒な動き制御を実現する。
本稿では,多様な現代舞踊を含む舞踊データセットに対する提案手法を検証する。
3つの定量的解析の結果,アルゴリズムの優位性を検証した。
ビデオおよび定性的な実験により,本アルゴリズムが生成する複雑な動き列は,長期間の合成においても,キーフレーム間の多様な滑らかな動き遷移を実現できることを示した。
関連論文リスト
- Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - GANimator: Neural Motion Synthesis from a Single Sequence [38.361579401046875]
本稿では,1つの短い動き列から新しい動きを合成することを学ぶ生成モデルであるGANimatorを提案する。
GANimatorはオリジナルの動きのコア要素に類似した動きを生成し、同時に新規で多様な動きを合成する。
クラウドシミュレーション,キーフレーム編集,スタイル転送,対話型制御など,さまざまな応用例を示し,それぞれが単一の入力シーケンスから学習する。
論文 参考訳(メタデータ) (2022-05-05T13:04:14Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Towards Lightweight Neural Animation : Exploration of Neural Network
Pruning in Mixture of Experts-based Animation Models [3.1733862899654652]
対話型キャラクタアニメーションの文脈でニューラルネットワークを圧縮するために,プルーニングアルゴリズムを適用した。
同じ数の専門家とパラメータで、刈り取られたモデルは、密度の高いモデルよりも動きの人工物が少ない。
この研究は、同じ数の専門家とパラメータで、刈り取られたモデルは密度の高いモデルよりも動きの人工物が少ないことを示した。
論文 参考訳(メタデータ) (2022-01-11T16:39:32Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。