論文の概要: Pretrained Diffusion Models for Unified Human Motion Synthesis
- arxiv url: http://arxiv.org/abs/2212.02837v1
- Date: Tue, 6 Dec 2022 09:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:25:07.870994
- Title: Pretrained Diffusion Models for Unified Human Motion Synthesis
- Title(参考訳): 統一ヒト運動合成のための事前学習拡散モデル
- Authors: Jianxin Ma, Shuai Bai, Chang Zhou
- Abstract要約: MoFusionは統合されたモーション合成のためのフレームワークである。
多様な制御信号の挿入を容易にするためにTransformerのバックボーンを使用している。
また、身体部分の運動完了から全身運動生成まで、多粒性合成をサポートする。
- 参考スコア(独自算出の注目度): 33.41816844381057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling of human motion has broad applications in computer
animation, virtual reality, and robotics. Conventional approaches develop
separate models for different motion synthesis tasks, and typically use a model
of a small size to avoid overfitting the scarce data available in each setting.
It remains an open question whether developing a single unified model is
feasible, which may 1) benefit the acquirement of novel skills by combining
skills learned from multiple tasks, and 2) help in increasing the model
capacity without overfitting by combining multiple data sources. Unification is
challenging because 1) it involves diverse control signals as well as targets
of varying granularity, and 2) motion datasets may use different skeletons and
default poses. In this paper, we present MoFusion, a framework for unified
motion synthesis. MoFusion employs a Transformer backbone to ease the inclusion
of diverse control signals via cross attention, and pretrains the backbone as a
diffusion model to support multi-granularity synthesis ranging from motion
completion of a body part to whole-body motion generation. It uses a learnable
adapter to accommodate the differences between the default skeletons used by
the pretraining and the fine-tuning data. Empirical results show that
pretraining is vital for scaling the model size without overfitting, and
demonstrate MoFusion's potential in various tasks, e.g., text-to-motion, motion
completion, and zero-shot mixing of multiple control signals. Project page:
\url{https://ofa-sys.github.io/MoFusion/}.
- Abstract(参考訳): 人間の動きの生成的モデリングは、コンピュータアニメーション、仮想現実、ロボット工学に広く応用されている。
従来のアプローチでは、異なるモーション合成タスクのための別々のモデルを開発し、通常、各設定で利用可能な不足したデータを過度に満たさないために、小さなサイズのモデルを使用する。
単一統一モデルの開発が実現可能かどうかは、まだ疑問の余地がある。
1)複数の課題から学んだスキルを組み合わせることで、新しいスキルの獲得に寄与し、
2) 複数のデータソースを組み合わせることで、過度に適合することなくモデル容量を増やすのに役立つ。
統一は困難です なぜなら
1) 様々な制御信号と, 種々の粒度を目標とする。
2) 動作データセットは、異なる骨格とデフォルトポーズを用いることができる。
本稿では,統合運動合成のためのフレームワークであるMoFusionを提案する。
mofusionはトランスフォーマーバックボーンを使用してクロスアテンションによる多様な制御信号の包含を容易にし、そのバックボーンを拡散モデルとして事前訓練し、体部の動き完了から全身運動生成まで多次元合成をサポートする。
学習可能なアダプタを使用して、事前トレーニングで使用されるデフォルトのスケルトンと微調整データの違いに対応する。
実験の結果,事前学習はモデルサイズを過度に満たさずに拡大する上で不可欠であり,複数の制御信号のテキスト・モーション・コンプリートやゼロショット・ミキシングなど,様々なタスクにおけるmofusionの可能性を示すことができた。
プロジェクトページ: \url{https://ofa-sys.github.io/mofusion/}
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Controllable Motion Synthesis and Reconstruction with Autoregressive
Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。
本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文 参考訳(メタデータ) (2023-04-03T08:17:08Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。