論文の概要: Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2412.16670v1
- Date: Sat, 21 Dec 2024 15:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:40.873506
- Title: Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer
- Title(参考訳): 2対1:潜時拡散変換器による統一多人数対話型モーション生成
- Authors: Boyuan Li, Xihua Wang, Ruihua Song, Wenbing Huang,
- Abstract要約: 多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
- 参考スコア(独自算出の注目度): 24.166147954731652
- License:
- Abstract: Multi-person interactive motion generation, a critical yet under-explored domain in computer character animation, poses significant challenges such as intricate modeling of inter-human interactions beyond individual motions and generating two motions with huge differences from one text condition. Current research often employs separate module branches for individual motions, leading to a loss of interaction information and increased computational demands. To address these challenges, we propose a novel, unified approach that models multi-person motions and their interactions within a single latent space. Our approach streamlines the process by treating interactive motions as an integrated data point, utilizing a Variational AutoEncoder (VAE) for compression into a unified latent space, and performing a diffusion process within this space, guided by the natural language conditions. Experimental results demonstrate our method's superiority over existing approaches in generation quality, performing text condition in particular when motions have significant asymmetry, and accelerating the generation efficiency while preserving high quality.
- Abstract(参考訳): コンピュータ・キャラクタ・アニメーションにおける批判的かつ未探索の領域である多人数対話型動作生成は、個々の動作を超えた人間間相互作用の複雑なモデリングや、1つのテキスト条件と大きな違いを持つ2つの動作の生成といった重要な課題を提起する。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、相互作用情報が失われ、計算要求が増大する。
これらの課題に対処するため、我々は、複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する、新しい統一的なアプローチを提案する。
提案手法は,対話動作を統合データポイントとして扱うことでプロセスを合理化し,可変オートエンコーダ(VAE)を用いて一貫した潜在空間に圧縮し,自然言語条件で導かれるこの空間内で拡散処理を行う。
実験により,本手法は生成品質の既存手法よりも優れており,特に運動が大きな非対称性を持つ場合のテキスト条件が良好であり,高品質を維持しながら生成効率を向上することを示した。
関連論文リスト
- Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。