論文の概要: Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
- arxiv url: http://arxiv.org/abs/2504.03639v1
- Date: Fri, 04 Apr 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:59.835249
- Title: Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
- Title(参考訳): Shape My Moves: テキスト駆動型形状認識による人間の動きの合成
- Authors: Ting-Hsuan Liao, Yi Zhou, Yu Shen, Chun-Hao Paul Huang, Saayan Mitra, Jia-Bin Huang, Uttaran Bhattacharya,
- Abstract要約: 身体の形状は人間の運動合成に影響を及ぼすが、これは既存のテキスト・ツー・モーション・ジェネレーションの手法でしばしば見過ごされる側面である。
本手法は,自然言語のプロンプトから人体に認識された動作を生成することによって,このギャップに対処する。
- 参考スコア(独自算出の注目度): 22.217590831478475
- License:
- Abstract: We explore how body shapes influence human motion synthesis, an aspect often overlooked in existing text-to-motion generation methods due to the ease of learning a homogenized, canonical body shape. However, this homogenization can distort the natural correlations between different body shapes and their motion dynamics. Our method addresses this gap by generating body-shape-aware human motions from natural language prompts. We utilize a finite scalar quantization-based variational autoencoder (FSQ-VAE) to quantize motion into discrete tokens and then leverage continuous body shape information to de-quantize these tokens back into continuous, detailed motion. Additionally, we harness the capabilities of a pretrained language model to predict both continuous shape parameters and motion tokens, facilitating the synthesis of text-aligned motions and decoding them into shape-aware motions. We evaluate our method quantitatively and qualitatively, and also conduct a comprehensive perceptual study to demonstrate its efficacy in generating shape-aware motions.
- Abstract(参考訳): 身体形状が人間の運動合成にどのように影響するかを考察する。これは、同種で正統的な身体形状を学習し易いことから、既存のテキスト・トゥ・モーション・ジェネレーション法でしばしば見過ごされる側面である。
しかし、この均質化は、異なる体の形状と運動力学の間の自然な相関を歪めることができる。
本手法は,自然言語のプロンプトから人体に認識された動作を生成することによって,このギャップに対処する。
我々は、有限スカラー量子化に基づく変分オートエンコーダ(FSQ-VAE)を用いて、動きを離散トークンに量子化し、連続体形状情報を利用してこれらのトークンを連続的かつ詳細な動きに復号する。
さらに、事前学習された言語モデルの能力を利用して、連続した形状パラメータと動きトークンの両方を予測し、テキスト整列運動の合成を容易にし、それらを形状認識運動へとデコードする。
本手法を定量的に定性的に評価するとともに,形状認識運動の生成における有効性を示す包括的知覚的研究を行った。
関連論文リスト
- Diffgrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model [25.00532805042292]
本稿では,身体,手,与えられた物体の動き列の関係をモデル化する,シンプルで効果的な枠組みを提案する。
我々は,新たな接触認識損失を導入し,データ駆動型,慎重に設計されたガイダンスを取り入れた。
実験の結果,本手法は最先端の手法より優れ,至適な全身運動系列を生成することがわかった。
論文 参考訳(メタデータ) (2024-12-30T02:21:43Z) - HUMOS: Human Motion Model Conditioned on Body Shape [54.20419874234214]
身体形状に基づく生成運動モデルを構築するための新しいアプローチを提案する。
非ペアデータを使ってこのモデルをトレーニングすることが可能であることを示す。
得られたモデルは、多種多様で、物理的に妥当で、動的に安定した人間の動きを生成する。
論文 参考訳(メタデータ) (2024-09-05T23:50:57Z) - Implicit Neural Representation for Physics-driven Actuated Soft Bodies [15.261578025057593]
本稿では、ニューラルネットワークによってパラメータ化されるアクチュエータ信号の最適化のために、微分可能、準静的、物理に基づくシミュレーション層を利用する。
材料空間の空間点からアクティベーション値への連続写像を可能にする関数を定義する。
顔画像の特定の場合の暗黙的モデルを下顎運動学に拡張し、高品質なキャプチャーシステムで捉えた表情を確実に再現できることを示す。
論文 参考訳(メタデータ) (2024-01-26T13:42:12Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - Imposing Temporal Consistency on Deep Monocular Body Shape and Pose
Estimation [67.23327074124855]
本稿では,適合過程における時間的制約の統合に対するエレガントな解法を提案する。
我々は、顎ポーズ、表情、指ポーズを含む人物の形状と動きを表す一連の身体モデルのパラメーターを導出する。
本手法は,表情や手話を含む画像系列からリアルな3次元体モデルの導出を可能にする。
論文 参考訳(メタデータ) (2022-02-07T11:11:55Z) - DiffSDFSim: Differentiable Rigid-Body Dynamics With Implicit Shapes [9.119424247289857]
微分物理学は、シーンの理解と相互作用の推論のためのコンピュータとロボティクスの強力なツールである。
既存のアプローチは、前もって単純な形状や形状のオブジェクトに限られていることが多い。
論文 参考訳(メタデータ) (2021-11-30T11:56:24Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。