論文の概要: StickMotion: Generating 3D Human Motions by Drawing a Stickman
- arxiv url: http://arxiv.org/abs/2503.04829v1
- Date: Wed, 05 Mar 2025 07:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:05.219212
- Title: StickMotion: Generating 3D Human Motions by Drawing a Stickman
- Title(参考訳): StickMotion: スティックマンの描画による3Dモーション生成
- Authors: Tao Wang, Zhihua Wu, Qiaozhi He, Jiaming Chu, Ling Qian, Yu Cheng, Junliang Xing, Jian Zhao, Lei Jin,
- Abstract要約: 本稿では,多条件シナリオ用に設計された効率的な拡散型ネットワークであるStickMotionを紹介する。
我々は,手書きのステッカーを異なるデータセットフォーマットで自動生成するアルゴリズムを開発した。
拡散過程に統合し,可能な全ての条件の組み合わせの出力を得る多条件モジュールを提案する。
- 参考スコア(独自算出の注目度): 26.545325426524006
- License:
- Abstract: Text-to-motion generation, which translates textual descriptions into human motions, has been challenging in accurately capturing detailed user-imagined motions from simple text inputs. This paper introduces StickMotion, an efficient diffusion-based network designed for multi-condition scenarios, which generates desired motions based on traditional text and our proposed stickman conditions for global and local control of these motions, respectively. We address the challenges introduced by the user-friendly stickman from three perspectives: 1) Data generation. We develop an algorithm to generate hand-drawn stickmen automatically across different dataset formats. 2) Multi-condition fusion. We propose a multi-condition module that integrates into the diffusion process and obtains outputs of all possible condition combinations, reducing computational complexity and enhancing StickMotion's performance compared to conventional approaches with the self-attention module. 3) Dynamic supervision. We empower StickMotion to make minor adjustments to the stickman's position within the output sequences, generating more natural movements through our proposed dynamic supervision strategy. Through quantitative experiments and user studies, sketching stickmen saves users about 51.5% of their time generating motions consistent with their imagination. Our codes, demos, and relevant data will be released to facilitate further research and validation within the scientific community.
- Abstract(参考訳): テキストによる記述を人間の動作に変換するテキスト・トゥ・モーション生成は、簡単なテキスト入力から詳細なユーザ・イメージの動作を正確に捉えることが困難である。
本稿では,多条件シナリオ向けに設計された効率的な拡散型ネットワークであるStickMotionを紹介し,従来のテキストに基づく所望の動作と,これらの動作をグローバルかつ局所的に制御するためのスティックマン条件を提案する。
ユーザフレンドリーなスティックマンがもたらした課題には,3つの視点から対処する。
1)データ生成。
我々は,手書きのステッカーを異なるデータセットフォーマットで自動生成するアルゴリズムを開発した。
2)多条件核融合
本稿では,拡散過程に統合し,可能条件の組み合わせの出力を取得し,計算複雑性を低減し,StickMotionの性能を向上させるマルチ条件モジュールを提案する。
3)動的監督。
我々はStickMotionに出力シーケンス内のスティックマンの位置を微調整する権限を与え、提案した動的監視戦略を通じてより自然な動きを発生させる。
定量的な実験とユーザスタディを通じて、スケッチステーメンは、ユーザの想像力と一致した動きを生成する時間の約51.5%を節約する。
私たちのコード、デモ、関連するデータは、科学コミュニティ内でさらなる研究と検証を促進するためにリリースされます。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation [44.9991846328409]
群衆運動生成は、アニメーションやゲームなどのエンターテイメント産業や、都市シミュレーションや計画といった戦略的分野において不可欠である。
このフレームワークはLarge Language Model(LLM)のパワーを利用して、集合的なインテリジェンスをモーション生成フレームワークに組み込む。
本フレームワークは,(1)特定のシーン状況に応じた動きや動特性の調整を学習する群集シーンプランナ,(2)必要な集合運動を効率的に合成する集合モーションジェネレータの2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2024-07-08T17:59:36Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。