論文の概要: MotionCLIP: Exposing Human Motion Generation to CLIP Space
- arxiv url: http://arxiv.org/abs/2203.08063v1
- Date: Tue, 15 Mar 2022 16:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 17:32:28.394317
- Title: MotionCLIP: Exposing Human Motion Generation to CLIP Space
- Title(参考訳): MotionCLIP:CLIP空間に人間の動きを生成する
- Authors: Guy Tevet, Brian Gordon, Amir Hertz, Amit H. Bermano, Daniel Cohen-Or
- Abstract要約: 我々は3次元モーションオートエンコーダであるMotionCLIPを紹介した。
MotionCLIPは、その潜在空間をContrastive Language Image Pre-training (CLIP)モデルと整合させることで、独自のパワーを得る。
MotionCLIPは前例のないテキスト・ツー・モーション機能を提供し、ドメイン外アクション、アンタングル編集、抽象言語仕様を提供する。
- 参考スコア(独自算出の注目度): 40.77049019470539
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce MotionCLIP, a 3D human motion auto-encoder featuring a latent
embedding that is disentangled, well behaved, and supports highly semantic
textual descriptions. MotionCLIP gains its unique power by aligning its latent
space with that of the Contrastive Language-Image Pre-training (CLIP) model.
Aligning the human motion manifold to CLIP space implicitly infuses the
extremely rich semantic knowledge of CLIP into the manifold. In particular, it
helps continuity by placing semantically similar motions close to one another,
and disentanglement, which is inherited from the CLIP-space structure.
MotionCLIP comprises a transformer-based motion auto-encoder, trained to
reconstruct motion while being aligned to its text label's position in
CLIP-space. We further leverage CLIP's unique visual understanding and inject
an even stronger signal through aligning motion to rendered frames in a
self-supervised manner. We show that although CLIP has never seen the motion
domain, MotionCLIP offers unprecedented text-to-motion abilities, allowing
out-of-domain actions, disentangled editing, and abstract language
specification. For example, the text prompt "couch" is decoded into a sitting
down motion, due to lingual similarity, and the prompt "Spiderman" results in a
web-swinging-like solution that is far from seen during training. In addition,
we show how the introduced latent space can be leveraged for motion
interpolation, editing and recognition.
- Abstract(参考訳): motionclipは潜伏埋め込みを特徴とする3次元ヒューマンモーション自動エンコーダで,不連続でよく振る舞うとともに,高度に意味のあるテキスト記述をサポートする。
MotionCLIPは、その潜在空間とCLIP(Contrastive Language- Image Pre-training)モデルとの整合によって、独自のパワーを得る。
ヒトの運動多様体をCLIP空間にアライメントすることは、CLIPの極めて豊かな意味的知識を多様体に暗黙的に注入する。
特に、セマンティックに類似した動きを互いに近くに置くことで連続性を助け、CLIP空間構造から継承されるアンタングルメントを解消する。
MotionCLIPはトランスフォーマーベースのモーションオートエンコーダを備えており、CLIP空間におけるテキストラベルの位置に合わせて動きを再構築する。
さらに,クリップの独特の視覚理解を活用し,自己教師付きでフレームに動きを整合させることにより,さらに強い信号を注入する。
私たちは、CLIPがモーションドメインを見たことがないが、MotionCLIPは前例のないテキストとモーションの機能を提供する。
例えば、文章のプロンプト "couch" は、舌の類似性により、座ったままの動作にデコードされ、プロンプト "spiderman" は、トレーニング中に見るに及ばない web-swinging のようなソリューションになる。
さらに,導入された潜在空間を,動きの補間,編集,認識にどのように活用できるかを示す。
関連論文リスト
- LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning [8.707819647492467]
本稿では,空間的,時間的,動的空間時間的スケールを含む包括的特徴を学習することに着目し,CLIPを映像認識に適用するフレームワークを提案する。
我々は、教師付きビデオ認識、少数ショットビデオ認識、ゼロショット認識タスクにおいて広範な実験を行った。
提案手法の有効性を実証し,特にOmniCLIPは16ショット設定でHMDB51で74.30%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2024-08-12T13:55:46Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Plan, Posture and Go: Towards Open-World Text-to-Motion Generation [43.392549755386135]
Pro-Motion という分断型フレームワークを提案する。
モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。
Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
論文 参考訳(メタデータ) (2023-12-22T17:02:45Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - CLIP-Actor: Text-Driven Recommendation and Stylization for Animating
Human Meshes [17.22112222736234]
人間のメッシュアニメーションのためのテキスト駆動型モーションレコメンデーションとニューラルネットワークスタイリングシステムであるCLIP-Actorを提案する。
モーションシーケンスを推奨し、メッシュスタイルの属性を学習することで、テキストプロンプトに適合するように3Dのヒューマンメッシュを設計する。
CLIP-Actorは、自然言語のプロンプトから詳細な幾何学とテクスチャを用いて、可塑性で人間認識可能な3次元人体メッシュを動作させることを実証した。
論文 参考訳(メタデータ) (2022-06-09T09:50:39Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。