論文の概要: LEAD: Latent Realignment for Human Motion Diffusion
- arxiv url: http://arxiv.org/abs/2410.14508v1
- Date: Fri, 18 Oct 2024 14:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:11.876763
- Title: LEAD: Latent Realignment for Human Motion Diffusion
- Title(参考訳): LEAD:人間の運動拡散に対する潜在的認識
- Authors: Nefeli Andreou, Xi Wang, Victoria Fernández Abrevaya, Marie-Paule Cani, Yiorgos Chrysanthou, Vicky Kalogeiton,
- Abstract要約: 私たちのゴールは、自然言語から現実的な人間の動きを作り出すことです。
動作合成では,HumanML3DおよびKIT-ML上でLEADを評価し,現実主義,多様性,テキストモーションの整合性の観点から,最先端技術に匹敵する性能を示す。
動作テキストの逆変換では,従来のVAEと比較して分布外特性を捕捉する能力が改善された。
- 参考スコア(独自算出の注目度): 12.40712030002265
- License:
- Abstract: Our goal is to generate realistic human motion from natural language. Modern methods often face a trade-off between model expressiveness and text-to-motion alignment. Some align text and motion latent spaces but sacrifice expressiveness; others rely on diffusion models producing impressive motions, but lacking semantic meaning in their latent space. This may compromise realism, diversity, and applicability. Here, we address this by combining latent diffusion with a realignment mechanism, producing a novel, semantically structured space that encodes the semantics of language. Leveraging this capability, we introduce the task of textual motion inversion to capture novel motion concepts from a few examples. For motion synthesis, we evaluate LEAD on HumanML3D and KIT-ML and show comparable performance to the state-of-the-art in terms of realism, diversity, and text-motion consistency. Our qualitative analysis and user study reveal that our synthesized motions are sharper, more human-like and comply better with the text compared to modern methods. For motion textual inversion, our method demonstrates improved capacity in capturing out-of-distribution characteristics in comparison to traditional VAEs.
- Abstract(参考訳): 私たちのゴールは、自然言語から現実的な人間の動きを作り出すことです。
現代の手法は、しばしばモデル表現性とテキスト間アライメントのトレードオフに直面している。
テキストや動きの潜在空間を並べるものもあるが、表現性を犠牲にするものもあれば、印象的な動きを生み出す拡散モデルに頼っているものもあるが、その潜在空間において意味的な意味を欠いているものもある。
これは現実主義、多様性、適用性を損なう可能性がある。
本稿では,言語の意味論を符号化する新しい意味的構造空間を創出し,潜在拡散と認識機構を組み合わせることで,この問題に対処する。
本稿では,本機能を活用して,新しい動き概念をいくつかの例から捉えるために,テキスト・モーション・インバージョン(textual Motion Inversion)タスクを導入する。
動作合成では,HumanML3DおよびKIT-ML上でLEADを評価し,現実主義,多様性,テキストモーションの整合性の観点から,最先端技術に匹敵する性能を示す。
定性的分析とユーザスタディにより、我々の合成された動きはよりシャープで、人間らしく、現代の方法よりもテキストに順応していることが明らかとなった。
動作テキストの逆変換では,従来のVAEと比較して分布外特性を捕捉する能力が改善された。
関連論文リスト
- Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。