論文の概要: Temporal and Interactive Modeling for Efficient Human-Human Motion Generation
- arxiv url: http://arxiv.org/abs/2408.17135v1
- Date: Fri, 30 Aug 2024 09:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:48:34.377831
- Title: Temporal and Interactive Modeling for Efficient Human-Human Motion Generation
- Title(参考訳): ヒューマン・ヒューマン・モーション・ジェネレーションのための時間的・インタラクティブなモデリング
- Authors: Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhengkai Jiang, Yong Liu,
- Abstract要約: TIM(Temporal and Interactive Modeling)は,人間と人間の動作生成の先駆的モデルを示す,効率的かつ効果的な手法である。
具体的には、まず、動作シーケンスの時間的特性を活用し、非因果的・煩雑なモデリングを避けるために、因果的インタラクティブインジェクションを提案する。
最後に、よりスムーズで合理的な動きを生成するために、短期的な動きパターンを捉えるために局所パターン増幅を設計する。
- 参考スコア(独自算出の注目度): 30.857021853999644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-human motion generation is essential for understanding humans as social beings. Although several transformer-based methods have been proposed, they typically model each individual separately and overlook the causal relationships in temporal motion sequences. Furthermore, the attention mechanism in transformers exhibits quadratic computational complexity, significantly reducing their efficiency when processing long sequences. In this paper, we introduce TIM (Temporal and Interactive Modeling), an efficient and effective approach that presents the pioneering human-human motion generation model utilizing RWKV. Specifically, we first propose Causal Interactive Injection to leverage the temporal properties of motion sequences and avoid non-causal and cumbersome modeling. Then we present Role-Evolving Mixing to adjust to the ever-evolving roles throughout the interaction. Finally, to generate smoother and more rational motion, we design Localized Pattern Amplification to capture short-term motion patterns. Extensive experiments on InterHuman demonstrate that our method achieves superior performance. Notably, TIM has achieved state-of-the-art results using only 32% of InterGen's trainable parameters. Code will be available soon. Homepage: https://aigc-explorer.github.io/TIM-page/
- Abstract(参考訳): 人間-人間の運動生成は、人間を社会的存在として理解するために不可欠である。
いくつかの変圧器に基づく手法が提案されているが、通常は個々のモデルを個別にモデル化し、時間運動列の因果関係を無視する。
さらに、変圧器の注意機構は2次計算複雑性を示し、長い列を処理する際の効率を著しく低下させる。
本稿では,RWKVを用いた人間-人間の動き生成モデルを提案する,TIM(Temporal and Interactive Modeling)を提案する。
具体的には、まず、動作シーケンスの時間的特性を活用し、非因果的・煩雑なモデリングを避けるために、因果的インタラクティブインジェクションを提案する。
次に、相互作用を通して進化し続ける役割を調整するために、ロール進化ミキシングを紹介します。
最後に、よりスムーズで合理的な動きを生成するために、短期的な動きパターンを捉えるために局所パターン増幅を設計する。
InterHumanに関する大規模な実験により,本手法が優れた性能を発揮することが示された。
特にTIMは、InterGenのトレーニング可能なパラメータのわずか32%を使用して、最先端の結果を達成した。
コードはまもなく利用可能になる。
ホームページ:https://aigc-explorer.github.io/TIM-page/
関連論文リスト
- A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - Bipartite Graph Diffusion Model for Human Interaction Generation [11.732108478773196]
二部グラフ拡散法(BiGraphDiff)を提案する。
提案手法は,人間のインタラクション生成タスクの先行ベンチマークにおいて,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:59:46Z) - Pretrained Diffusion Models for Unified Human Motion Synthesis [33.41816844381057]
MoFusionは統合されたモーション合成のためのフレームワークである。
多様な制御信号の挿入を容易にするためにTransformerのバックボーンを使用している。
また、身体部分の運動完了から全身運動生成まで、多粒性合成をサポートする。
論文 参考訳(メタデータ) (2022-12-06T09:19:21Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。