論文の概要: MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation
- arxiv url: http://arxiv.org/abs/2505.10810v1
- Date: Fri, 16 May 2025 03:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.890273
- Title: MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation
- Title(参考訳): MoCLIP:人間の運動生成のためのCLIPの微調整と蒸留
- Authors: Gabriel Maldonado, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi,
- Abstract要約: この研究は、モーションエンコーディングヘッドを備えた微調整のCLIPモデルであるMoCLIPを導入し、コントラスト学習とテザリング損失を用いて、モーションシーケンスをトレーニングした。
実験により,MoCLIPは競合FIDを維持しながらTop-1,Top-2,Top-3の精度を向上し,テキスト間アライメントが向上した。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion generation is essential for fields such as animation, robotics, and virtual reality, requiring models that effectively capture motion dynamics from text descriptions. Existing approaches often rely on Contrastive Language-Image Pretraining (CLIP)-based text encoders, but their training on text-image pairs constrains their ability to understand temporal and kinematic structures inherent in motion and motion generation. This work introduces MoCLIP, a fine-tuned CLIP model with an additional motion encoding head, trained on motion sequences using contrastive learning and tethering loss. By explicitly incorporating motion-aware representations, MoCLIP enhances motion fidelity while remaining compatible with existing CLIP-based pipelines and seamlessly integrating into various CLIP-based methods. Experiments demonstrate that MoCLIP improves Top-1, Top-2, and Top-3 accuracy while maintaining competitive FID, leading to improved text-to-motion alignment results. These results highlight MoCLIP's versatility and effectiveness, establishing it as a robust framework for enhancing motion generation.
- Abstract(参考訳): 人間の動き生成はアニメーション、ロボット工学、仮想現実などの分野において必須であり、テキスト記述からモーションダイナミクスを効果的に捉えるモデルを必要とする。
既存のアプローチは、しばしばCLIP(Contrastive Language- Image Pretraining)ベースのテキストエンコーダに依存している。
この研究は、モーションエンコーディングヘッドを備えた微調整のCLIPモデルであるMoCLIPを導入し、コントラスト学習とテザリング損失を用いて、モーションシーケンスをトレーニングした。
動き認識表現を明示的に組み込むことで、MoCLIPは既存のCLIPベースのパイプラインとの互換性を維持しつつ、動きの忠実度を高め、さまざまなCLIPベースのメソッドにシームレスに統合する。
実験により,MoCLIPは競合FIDを維持しながらTop-1,Top-2,Top-3の精度を向上し,テキスト間アライメントが向上した。
これらの結果は、MoCLIPの汎用性と有効性を強調し、運動生成の強化のための堅牢なフレームワークとして確立した。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dynamic Motion Blending for Versatile Motion Editing [43.10279926787476]
我々は、入力テキストに基づいて身体部分の動きをブレンドすることでトレーニングトレーレットを生成するオンラインデータ拡張技術であるMotionMixCutを紹介する。
我々は、モーションコーディネータを備えた自己回帰拡散モデルであるMotionReFitを提案する。
提案手法は,高レベルの人的指示から直接,空間的および時間的動作の編集を行う。
論文 参考訳(メタデータ) (2025-03-26T17:07:24Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - MotionCLIP: Exposing Human Motion Generation to CLIP Space [40.77049019470539]
我々は3次元モーションオートエンコーダであるMotionCLIPを紹介した。
MotionCLIPは、その潜在空間をContrastive Language Image Pre-training (CLIP)モデルと整合させることで、独自のパワーを得る。
MotionCLIPは前例のないテキスト・ツー・モーション機能を提供し、ドメイン外アクション、アンタングル編集、抽象言語仕様を提供する。
論文 参考訳(メタデータ) (2022-03-15T16:56:22Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。