論文の概要: InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba
- arxiv url: http://arxiv.org/abs/2506.03084v1
- Date: Tue, 03 Jun 2025 17:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.880068
- Title: InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba
- Title(参考訳): InterMamba: 適応型時空間マンバを用いた効率的なヒューマン・ヒューマンインタラクション生成
- Authors: Zizhao Wu, Yingying Sun, Yiming Chen, Xiaoling Gu, Ruyu Liu, Jiazhou Chen,
- Abstract要約: そこで本研究では,Mambaフレームワークをベースとした,より効率的なヒューマンインタラクション生成手法を提案する。
提案手法は精度を向上するだけでなく,パラメータの最小サイズ66Mも必要である。
- 参考スコア(独自算出の注目度): 11.424641605016328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-human interaction generation has garnered significant attention in motion synthesis due to its vital role in understanding humans as social beings. However, existing methods typically rely on transformer-based architectures, which often face challenges related to scalability and efficiency. To address these issues, we propose a novel, efficient human-human interaction generation method based on the Mamba framework, designed to meet the demands of effectively capturing long-sequence dependencies while providing real-time feedback. Specifically, we introduce an adaptive spatio-temporal Mamba framework that utilizes two parallel SSM branches with an adaptive mechanism to integrate the spatial and temporal features of motion sequences. To further enhance the model's ability to capture dependencies within individual motion sequences and the interactions between different individual sequences, we develop two key modules: the self-adaptive spatio-temporal Mamba module and the cross-adaptive spatio-temporal Mamba module, enabling efficient feature learning. Extensive experiments demonstrate that our method achieves state-of-the-art results on two interaction datasets with remarkable quality and efficiency. Compared to the baseline method InterGen, our approach not only improves accuracy but also requires a minimal parameter size of just 66M ,only 36% of InterGen's, while achieving an average inference speed of 0.57 seconds, which is 46% of InterGen's execution time.
- Abstract(参考訳): 人間と人間の相互作用生成は、人間を社会的存在として理解する上で重要な役割を担っているため、運動合成において大きな注目を集めている。
しかし、既存のメソッドは一般的にトランスフォーマーベースのアーキテクチャに依存しており、スケーラビリティと効率に関する課題に直面していることが多い。
これらの課題に対処するため,我々は,リアルタイムなフィードバックを提供しながら,長期間の依存関係を効果的に把握する要求を満たすために,Mambaフレームワークをベースとした,より効率的なヒューマンインタラクション生成手法を提案する。
具体的には、2つの平行SSM分岐と適応機構を併用した適応時空間マンバフレームワークを導入し、動きシーケンスの空間的特徴と時間的特徴を統合する。
モデルが個々の動き列内の依存関係を捕捉し、異なる動き列間の相互作用を捉える能力をさらに強化するため、自己適応型時空間Mambaモジュールと、相互適応型時空間Mambaモジュールという2つの重要なモジュールを開発し、効率的な特徴学習を実現する。
大規模な実験により,本手法は目覚ましい品質と効率のよい2つの相互作用データセットに対して,最先端の結果が得られることを示した。
ベースライン法であるInterGenと比較して、我々の手法では精度を向上するだけでなく、パラメータサイズが66Mで、InterGenの36%しか必要とせず、平均推論速度は0.57秒であり、InterGenの実行時間の46%である。
関連論文リスト
- Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation [25.770855154106453]
本稿では,テキスト誘導型人-物体相互作用を生成するための効率的な共同対話モデル(EJIM)を提案する。
EJIMはDual-branch HOI Mambaを特徴としている。
EJIM は推定時間の 5% しか使用せず, 従来の作業よりも大きなマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-29T15:23:21Z) - GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-01-31T05:34:59Z) - TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation [30.734182958106327]
現在の手法は2つの主要なカテゴリに分類される。
本稿では,人間の動作生成のための効率的かつ効果的なフレームワークであるTIMotion(Temporal and Interactive Modeling)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T09:22:07Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。