論文の概要: LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2509.24469v1
- Date: Mon, 29 Sep 2025 08:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.872448
- Title: LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation
- Title(参考訳): LaMoGen: テキスト・トゥ・モーション・ジェネレーションのためのラベル移動誘導拡散
- Authors: Heechang Kim, Gwanghyun Kim, Se Young Chun,
- Abstract要約: 本研究は,テキスト誘導運動生成モデルにラガンエフォートと形状成分の定量化手法をシームレスに統合することにより,人間の動作生成の解釈および表現的制御を実現することを目的とする。
提案手法は,ターゲットラバンタグによる動作特性の操作により,動作の同一性を保ちながら,多様な表現的動作特性が得られる。
- 参考スコア(独自算出の注目度): 28.73306164224967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse human motion generation is an increasingly important task, having various applications in computer vision, human-computer interaction and animation. While text-to-motion synthesis using diffusion models has shown success in generating high-quality motions, achieving fine-grained expressive motion control remains a significant challenge. This is due to the lack of motion style diversity in datasets and the difficulty of expressing quantitative characteristics in natural language. Laban movement analysis has been widely used by dance experts to express the details of motion including motion quality as consistent as possible. Inspired by that, this work aims for interpretable and expressive control of human motion generation by seamlessly integrating the quantification methods of Laban Effort and Shape components into the text-guided motion generation models. Our proposed zero-shot, inference-time optimization method guides the motion generation model to have desired Laban Effort and Shape components without any additional motion data by updating the text embedding of pretrained diffusion models during the sampling step. We demonstrate that our approach yields diverse expressive motion qualities while preserving motion identity by successfully manipulating motion attributes according to target Laban tags.
- Abstract(参考訳): コンピュータビジョン、人間とコンピュータの相互作用、アニメーションに様々な応用がある。
拡散モデルを用いたテキスト・トゥ・モーション合成は高品質な動きを生成することに成功したが、微細な表現力制御を実現することは大きな課題である。
これは、データセットにおける動きスタイルの多様性の欠如と、自然言語における量的特徴を表現することの難しさによるものである。
ダンスの専門家は、動きの質を含む動きの詳細をできるだけ一貫した形で表現するために、ラバンの動き分析を広く用いている。
そこで本研究は,テキスト誘導運動生成モデルにラバン・エフォートと形状成分の定量化手法をシームレスに統合することにより,人間の動作生成の解釈および表現的制御を実現することを目的とする。
提案したゼロショット・推論時間最適化手法は,サンプリングステップ中に事前学習した拡散モデルのテキスト埋め込みを更新することにより,動き生成モデルに所望のラバン・エフォートと形状の成分を付加せずに得るように誘導する。
提案手法は,目標ラベルタグによる動作特性の操作を成功させることにより,動作の同一性を保ちながら,多様な表現的動作特性が得られることを示す。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。