論文の概要: Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation
- arxiv url: http://arxiv.org/abs/2411.04079v1
- Date: Wed, 06 Nov 2024 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:18.386185
- Title: Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation
- Title(参考訳): 開語彙運動生成のためのテキスト分解とサブモーション空間散乱
- Authors: Ke Fan, Jiangning Zhang, Ran Yi, Jingyu Gong, Yabiao Wang, Yating Wang, Xin Tan, Chengjie Wang, Lizhuang Ma,
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。
現在の注釈付きデータセットの限られたスケールでは、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。
本稿では,原子運動を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの秩序に結合したステップを活用することを提案する。
- 参考スコア(独自算出の注目度): 74.94730615777212
- License:
- Abstract: Text-to-motion generation is a crucial task in computer vision, which generates the target 3D motion by the given text. The existing annotated datasets are limited in scale, resulting in most existing methods overfitting to the small datasets and unable to generalize to the motions of the open domain. Some methods attempt to solve the open-vocabulary motion generation problem by aligning to the CLIP space or using the Pretrain-then-Finetuning paradigm. However, the current annotated dataset's limited scale only allows them to achieve mapping from sub-text-space to sub-motion-space, instead of mapping between full-text-space and full-motion-space (full mapping), which is the key to attaining open-vocabulary motion generation. To this end, this paper proposes to leverage the atomic motion (simple body part motions over a short time period) as an intermediate representation, and leverage two orderly coupled steps, i.e., Textual Decomposition and Sub-motion-space Scattering, to address the full mapping problem. For Textual Decomposition, we design a fine-grained description conversion algorithm, and combine it with the generalization ability of a large language model to convert any given motion text into atomic texts. Sub-motion-space Scattering learns the compositional process from atomic motions to the target motions, to make the learned sub-motion-space scattered to form the full-motion-space. For a given motion of the open domain, it transforms the extrapolation into interpolation and thereby significantly improves generalization. Our network, $DSO$-Net, combines textual $d$ecomposition and sub-motion-space $s$cattering to solve the $o$pen-vocabulary motion generation. Extensive experiments demonstrate that our DSO-Net achieves significant improvements over the state-of-the-art methods on open-vocabulary motion generation. Code is available at https://vankouf.github.io/DSONet/.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。
既存の注釈付きデータセットは大規模に制限されているため、ほとんどの既存のメソッドは小さなデータセットに過度に適合し、オープンドメインの動作に一般化できない。
いくつかの手法は、CLIP空間に整列したり、Pretrain-then-Finetuningパラダイムを用いてオープン語彙運動生成問題を解決する。
しかし、現在の注釈付きデータセットの制限されたスケールでは、フルテキストスペースとフルモーションスペース(フルマッピング)をマッピングするのではなく、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。
そこで本研究では,原子運動(短時間の身体部分運動)を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの整合したステップをフルマッピング問題に適用することを提案する。
テキスト分解のために、我々は細粒度記述変換アルゴリズムを設計し、任意の動きテキストを原子テキストに変換するための大言語モデルの一般化能力と組み合わせる。
サブモーション空間散乱は、原子運動からターゲット運動への合成過程を学習し、学習されたサブモーション空間を分散させてフルモーション空間を形成する。
開領域の特定の運動に対して、外挿を補間に変換して一般化を大幅に改善する。
我々のネットワークである$DSO$-Netはテキスト$d$ecompositionとサブモーションスペース$s$catteringを組み合わせて$o$pen-vocabularyモーション生成を解決する。
広汎な実験により、我々のDSO-Netは、オープン語彙運動生成における最先端手法よりも大幅に改善されていることが示された。
コードはhttps://vankouf.github.io/DSONet/.comで入手できる。
関連論文リスト
- FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - Plan, Posture and Go: Towards Open-World Text-to-Motion Generation [43.392549755386135]
Pro-Motion という分断型フレームワークを提案する。
モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。
Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
論文 参考訳(メタデータ) (2023-12-22T17:02:45Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。