論文の概要: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2503.06897v1
- Date: Mon, 10 Mar 2025 04:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:21.121747
- Title: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation
- Title(参考訳): HiSTF Mamba:高忠実テキスト-運動生成のための多粒体空間モデリングによる階層的時空間融合
- Authors: Xingzu Zhan, Chen Xie, Haoran Sun, Xiaochun Mai,
- Abstract要約: テキスト・トゥ・モーション生成のための新しいHiSTF Mambaフレームワークを提案する。
我々は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示す。
以上の結果から,HiSTF Mambaは高い忠実度と強いセマンティックアライメントを達成できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.63340847947103
- License:
- Abstract: Text-to-motion generation is a rapidly growing field at the nexus of multimodal learning and computer graphics, promising flexible and cost-effective applications in gaming, animation, robotics, and virtual reality. Existing approaches often rely on simple spatiotemporal stacking, which introduces feature redundancy, while subtle joint-level details remain overlooked from a spatial perspective. To this end, we propose a novel HiSTF Mamba framework. The framework is composed of three key modules: Dual-Spatial Mamba, Bi-Temporal Mamba, and Dynamic Spatiotemporal Fusion Module (DSFM). Dual-Spatial Mamba incorporates ``Part-based + Whole-based'' parallel modeling to represent both whole-body coordination and fine-grained joint dynamics. Bi-Temporal Mamba adopts a bidirectional scanning strategy, effectively encoding short-term motion details and long-term dependencies. DSFM further performs redundancy removal and extraction of complementary information for temporal features, then fuses them with spatial features, yielding an expressive spatio-temporal representation. Experimental results on the HumanML3D dataset demonstrate that HiSTF Mamba achieves state-of-the-art performance across multiple metrics. In particular, it reduces the FID score from 0.283 to 0.189, a relative decrease of nearly 30%. These findings validate the effectiveness of HiSTF Mamba in achieving high fidelity and strong semantic alignment in text-to-motion generation.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは、マルチモーダル学習とコンピュータグラフィックスの分野で急速に成長している分野であり、ゲーム、アニメーション、ロボティクス、バーチャルリアリティーにおける柔軟性と費用対効果を約束している。
既存のアプローチはしばしば、空間的な視点から見過ごされる一方、特徴の冗長性をもたらす単純な時空間的積み重ねに依存している。
この目的のために,新しいHiSTF Mambaフレームワークを提案する。
このフレームワークはDual-Spatial Mamba、Bi-Temporal Mamba、Dynamic Spatiotemporal Fusion Module (DSFM)の3つの主要なモジュールで構成されている。
Dual-Spatial Mamba は '`Part-based + Whole-based' の並列モデリングを取り入れ、全身調整ときめ細かい関節力学の両方を表現する。
両テンポラル・マンバは双方向走査方式を採用し、短期運動の詳細と長期依存を効果的に符号化する。
DSFMはさらに、時間的特徴に対する冗長性除去と補完情報の抽出を行い、空間的特徴と融合し、表現的な時空間表現をもたらす。
HumanML3Dデータセットの実験結果は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示した。
特に、FIDスコアが0.283から0.189に減少し、相対的に30%近く低下する。
以上の結果から,HiSTF Mambaがテキスト・トゥ・モーション生成において高い忠実性と強いセマンティックアライメントを実現する上での有効性が確認された。
関連論文リスト
- Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文 参考訳(メタデータ) (2024-09-24T09:58:07Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。