論文の概要: Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model
- arxiv url: http://arxiv.org/abs/2309.06284v1
- Date: Tue, 12 Sep 2023 14:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:31:32.741903
- Title: Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model
- Title(参考訳): Fg-T2M:拡散モデルによる微粒テキスト駆動型人体運動生成
- Authors: Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui
Liang
- Abstract要約: そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
- 参考スコア(独自算出の注目度): 11.873294782380984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven human motion generation in computer vision is both significant
and challenging. However, current methods are limited to producing either
deterministic or imprecise motion sequences, failing to effectively control the
temporal and spatial relationships required to conform to a given text
description. In this work, we propose a fine-grained method for generating
high-quality, conditional human motion sequences supporting precise text
description. Our approach consists of two key components: 1) a
linguistics-structure assisted module that constructs accurate and complete
language feature to fully utilize text information; and 2) a context-aware
progressive reasoning module that learns neighborhood and overall semantic
linguistics features from shallow and deep graph neural networks to achieve a
multi-step inference. Experiments show that our approach outperforms
text-driven motion generation methods on HumanML3D and KIT test sets and
generates better visually confirmed motion to the text conditions.
- Abstract(参考訳): コンピュータビジョンにおけるテキスト駆動型モーション生成は重要かつ困難である。
しかし、現在の手法は決定論的または不正確な動作列を生成することに限定されており、与えられたテキスト記述に従うために必要な時間的および空間的関係を効果的に制御できない。
本研究では,高精度なテキスト記述を支援する高品質な条件付き人間の動作系列を生成するための微細な手法を提案する。
私たちのアプローチは2つの重要なコンポーネントで構成されています。
1) テキスト情報を完全に活用するための正確で完全な言語特徴を構成する言語構造補助モジュール
2)浅層および深層グラフニューラルネットワークから近傍および全体的意味論的特徴を学習し,多段階推論を実現するコンテキスト認識型プログレッシブ推論モジュール。
実験により,本手法はHumanML3DおよびKITテストセット上でのテキスト駆動動作生成法よりも優れ,テキスト条件に対する視覚的に確認された動作をより良く生成することが示された。
関連論文リスト
- Text2Grasp: Grasp synthesis by text prompts of object grasping parts [4.031699584957737]
この手は、物体をつかみ、操作する人間の能力において重要な役割を担っている。
人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。
本研究では,より精密な制御が可能なオブジェクト把握部であるText2Graspのテキストプロンプトによって導かれるグリップ合成手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T10:57:27Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - HumanTOMATO: Text-aligned Whole-body Motion Generation [30.729975715600627]
本研究は,新しいテキスト駆動型全身運動生成タスクを目標とする。
高品質で多様な、一貫性のある表情、手のジェスチャー、身体の動きを同時に生成することを目的としている。
論文 参考訳(メタデータ) (2023-10-19T17:59:46Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。