Fugu-MT 論文翻訳(概要): HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation

論文の概要: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation

arxiv url: http://arxiv.org/abs/2503.06897v1
Date: Mon, 10 Mar 2025 04:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.694056
Title: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation
Title（参考訳）: HiSTF Mamba:高忠実テキスト-運動生成のための多粒体空間モデリングによる階層的時空間融合
Authors: Xingzu Zhan, Chen Xie, Haoran Sun, Xiaochun Mai,
Abstract要約: テキスト・トゥ・モーション生成のための新しいHiSTF Mambaフレームワークを提案する。我々は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示す。以上の結果から,HiSTF Mambaは高い忠実度と強いセマンティックアライメントを達成できる可能性が示唆された。
参考スコア（独自算出の注目度）: 11.63340847947103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-motion generation is a rapidly growing field at the nexus of multimodal learning and computer graphics, promising flexible and cost-effective applications in gaming, animation, robotics, and virtual reality. Existing approaches often rely on simple spatiotemporal stacking, which introduces feature redundancy, while subtle joint-level details remain overlooked from a spatial perspective. To this end, we propose a novel HiSTF Mamba framework. The framework is composed of three key modules: Dual-Spatial Mamba, Bi-Temporal Mamba, and Dynamic Spatiotemporal Fusion Module (DSFM). Dual-Spatial Mamba incorporates ``Part-based + Whole-based'' parallel modeling to represent both whole-body coordination and fine-grained joint dynamics. Bi-Temporal Mamba adopts a bidirectional scanning strategy, effectively encoding short-term motion details and long-term dependencies. DSFM further performs redundancy removal and extraction of complementary information for temporal features, then fuses them with spatial features, yielding an expressive spatio-temporal representation. Experimental results on the HumanML3D dataset demonstrate that HiSTF Mamba achieves state-of-the-art performance across multiple metrics. In particular, it reduces the FID score from 0.283 to 0.189, a relative decrease of nearly 30%. These findings validate the effectiveness of HiSTF Mamba in achieving high fidelity and strong semantic alignment in text-to-motion generation.
Abstract（参考訳）: テキスト・トゥ・モーション・ジェネレーションは、マルチモーダル学習とコンピュータグラフィックスの分野で急速に成長している分野であり、ゲーム、アニメーション、ロボティクス、バーチャルリアリティーにおける柔軟性と費用対効果を約束している。既存のアプローチはしばしば、空間的な視点から見過ごされる一方、特徴の冗長性をもたらす単純な時空間的積み重ねに依存している。この目的のために,新しいHiSTF Mambaフレームワークを提案する。このフレームワークはDual-Spatial Mamba、Bi-Temporal Mamba、Dynamic Spatiotemporal Fusion Module (DSFM)の3つの主要なモジュールで構成されている。 Dual-Spatial Mamba は '`Part-based + Whole-based' の並列モデリングを取り入れ、全身調整ときめ細かい関節力学の両方を表現する。両テンポラル・マンバは双方向走査方式を採用し、短期運動の詳細と長期依存を効果的に符号化する。 DSFMはさらに、時間的特徴に対する冗長性除去と補完情報の抽出を行い、空間的特徴と融合し、表現的な時空間表現をもたらす。 HumanML3Dデータセットの実験結果は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示した。特に、FIDスコアが0.283から0.189に減少し、相対的に30%近く低下する。以上の結果から,HiSTF Mambaがテキスト・トゥ・モーション生成において高い忠実性と強いセマンティックアライメントを実現する上での有効性が確認された。

関連論文リスト

TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba [20.941775037488863]
拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T10:00:14Z)
Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文参考訳（メタデータ） (2025-01-02T13:56:23Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。 Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2～4倍に向上させる。
論文参考訳（メタデータ） (2024-11-23T08:02:03Z)
DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。 DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文参考訳（メタデータ） (2024-09-24T09:58:07Z)
SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。 Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文参考訳（メタデータ） (2024-08-01T08:22:47Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。