論文の概要: InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions
- arxiv url: http://arxiv.org/abs/2304.05684v3
- Date: Thu, 28 Mar 2024 03:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:12:46.153449
- Title: InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions
- Title(参考訳): InterGen:複雑な相互作用下での拡散に基づくマルチヒューマンモーション生成
- Authors: Han Liang, Wenqian Zhang, Wenxuan Li, Jingyi Yu, Lan Xu,
- Abstract要約: 動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
- 参考スコア(独自算出の注目度): 49.097973114627344
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have recently seen tremendous progress in diffusion advances for generating realistic human motions. Yet, they largely disregard the multi-human interactions. In this paper, we present InterGen, an effective diffusion-based approach that incorporates human-to-human interactions into the motion diffusion process, which enables layman users to customize high-quality two-person interaction motions, with only text guidance. We first contribute a multimodal dataset, named InterHuman. It consists of about 107M frames for diverse two-person interactions, with accurate skeletal motions and 23,337 natural language descriptions. For the algorithm side, we carefully tailor the motion diffusion model to our two-person interaction setting. To handle the symmetry of human identities during interactions, we propose two cooperative transformer-based denoisers that explicitly share weights, with a mutual attention mechanism to further connect the two denoising processes. Then, we propose a novel representation for motion input in our interaction diffusion model, which explicitly formulates the global relations between the two performers in the world frame. We further introduce two novel regularization terms to encode spatial relations, equipped with a corresponding damping scheme during the training of our interaction diffusion model. Extensive experiments validate the effectiveness and generalizability of InterGen. Notably, it can generate more diverse and compelling two-person motions than previous methods and enables various downstream applications for human interactions.
- Abstract(参考訳): 私たちは最近、現実的な人間の動きを生み出すための拡散の進歩を目の当たりにしています。
しかし、それらは多人の相互作用をほとんど無視している。
本稿では,人間同士のインタラクションを移動拡散プロセスに組み込んだ効果的な拡散に基づくアプローチであるInterGenを提案する。
まず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。
様々な2人インタラクションのための約107万フレームで構成され、正確な骨格運動と23,337の自然言語記述がある。
アルゴリズム側では、動作拡散モデルと2人のインタラクション設定を慎重に調整する。
相互作用中の人間のアイデンティティの対称性を扱うために,重みを明示的に共有する2つの共用変圧器と,これら2つの重み付けプロセスをさらに接続するための相互注意機構を提案する。
そこで我々は,この相互作用拡散モデルにおいて,世界フレームにおける2人のパフォーマーのグローバルな関係を明示的に定式化した動き入力の表現を提案する。
さらに、相互作用拡散モデルのトレーニング中に対応する減衰方式を備えた空間関係を符号化する2つの新しい正規化項を導入する。
大規模な実験はInterGenの有効性と一般化性を検証する。
特に、従来の方法よりも多様で説得力のある2人の動作を生成し、人間のインタラクションに様々な下流の応用を可能にする。
関連論文リスト
- Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Bipartite Graph Diffusion Model for Human Interaction Generation [11.732108478773196]
二部グラフ拡散法(BiGraphDiff)を提案する。
提案手法は,人間のインタラクション生成タスクの先行ベンチマークにおいて,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:59:46Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。