論文の概要: SMooGPT: Stylized Motion Generation using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04058v1
- Date: Thu, 04 Sep 2025 09:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.119523
- Title: SMooGPT: Stylized Motion Generation using Large Language Models
- Title(参考訳): SMooGPT:大規模言語モデルを用いたスティル化運動生成
- Authors: Lei Zhong, Yi Yang, Changjian Li,
- Abstract要約: スティル化運動生成はコンピュータグラフィックスにおいて活発に研究されており、特に拡散モデルの急速な進歩の恩恵を受けている。
既存の研究では、動作スタイルの転送や条件付き動作生成によってこの問題に対処しようとしている。
本稿では,身体部分のテキスト空間を中間表現として利用し,SMooGPTを提案する。
- 参考スコア(独自算出の注目度): 23.476473154719514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stylized motion generation is actively studied in computer graphics, especially benefiting from the rapid advances in diffusion models. The goal of this task is to produce a novel motion respecting both the motion content and the desired motion style, e.g., ``walking in a loop like a Monkey''. Existing research attempts to address this problem via motion style transfer or conditional motion generation. They typically embed the motion style into a latent space and guide the motion implicitly in a latent space as well. Despite the progress, their methods suffer from low interpretability and control, limited generalization to new styles, and fail to produce motions other than ``walking'' due to the strong bias in the public stylization dataset. In this paper, we propose to solve the stylized motion generation problem from a new perspective of reasoning-composition-generation, based on our observations: i) human motion can often be effectively described using natural language in a body-part centric manner, ii) LLMs exhibit a strong ability to understand and reason about human motion, and iii) human motion has an inherently compositional nature, facilitating the new motion content or style generation via effective recomposing. We thus propose utilizing body-part text space as an intermediate representation, and present SMooGPT, a fine-tuned LLM, acting as a reasoner, composer, and generator when generating the desired stylized motion. Our method executes in the body-part text space with much higher interpretability, enabling fine-grained motion control, effectively resolving potential conflicts between motion content and style, and generalizes well to new styles thanks to the open-vocabulary ability of LLMs. Comprehensive experiments and evaluations, and a user perceptual study, demonstrate the effectiveness of our approach, especially under the pure text-driven stylized motion generation.
- Abstract(参考訳): スティル化運動生成はコンピュータグラフィックスにおいて活発に研究されており、特に拡散モデルの急速な進歩の恩恵を受けている。
この課題の目標は、動作内容と所望の動作スタイルの両方を尊重する新しい動作、例えば、'`walking in a loop like a Monkey''を作成することである。
既存の研究では、動作スタイルの転送や条件付き動作生成によってこの問題に対処しようとしている。
彼らは通常、動きのスタイルを潜伏空間に埋め込んで、潜伏空間でも暗黙的に動きを導く。
進歩にもかかわらず、それらの手法は低い解釈可能性と制御に悩まされ、新しいスタイルへの一般化が制限され、パブリックスタイリングデータセットの強いバイアスのために「ウォーキング」以外の動きを生成できない。
本稿では,我々の観察に基づく推論・合成・生成の新しい視点から,スタイリングされた動作生成問題を解くことを提案する。
一 人の動きは、身体部分中心の方法で自然言語を用いて効果的に記述することができること。
二 LLMは、人間の動作について理解し、推論する強力な能力を示し、
三 人間の動きは、本質的に構成性があり、効果的に再合成することにより、新しい動きの内容又はスタイル生成を容易にする。
そこで本研究では,身体部分のテキスト空間を中間表現として利用し,所望のスタイル化動作を生成する際に,推論,作曲家,ジェネレータとして機能する微調整LDMであるSMooGPTを提案する。
動作内容とスタイル間の潜在的な衝突を効果的に解消し,LLMのオープン語彙能力によって新たなスタイルによく適応する。
総合的な実験と評価,およびユーザパースペクティブスタディは,本手法の有効性を実証する。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DartControlは、リアルタイムテキスト駆動モーションコントロールのための拡散ベースの自動回帰モーションプリミティブモデルである。
本モデルは,動作履歴とテキスト入力を併用したコンパクトな動き原始空間を効果的に学習する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。