論文の概要: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2503.06897v1
- Date: Mon, 10 Mar 2025 04:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.694056
- Title: HiSTF Mamba: Hierarchical Spatiotemporal Fusion with Multi-Granular Body-Spatial Modeling for High-Fidelity Text-to-Motion Generation
- Title(参考訳): HiSTF Mamba:高忠実テキスト-運動生成のための多粒体空間モデリングによる階層的時空間融合
- Authors: Xingzu Zhan, Chen Xie, Haoran Sun, Xiaochun Mai,
- Abstract要約: テキスト・トゥ・モーション生成のための新しいHiSTF Mambaフレームワークを提案する。
我々は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示す。
以上の結果から,HiSTF Mambaは高い忠実度と強いセマンティックアライメントを達成できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.63340847947103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation is a rapidly growing field at the nexus of multimodal learning and computer graphics, promising flexible and cost-effective applications in gaming, animation, robotics, and virtual reality. Existing approaches often rely on simple spatiotemporal stacking, which introduces feature redundancy, while subtle joint-level details remain overlooked from a spatial perspective. To this end, we propose a novel HiSTF Mamba framework. The framework is composed of three key modules: Dual-Spatial Mamba, Bi-Temporal Mamba, and Dynamic Spatiotemporal Fusion Module (DSFM). Dual-Spatial Mamba incorporates ``Part-based + Whole-based'' parallel modeling to represent both whole-body coordination and fine-grained joint dynamics. Bi-Temporal Mamba adopts a bidirectional scanning strategy, effectively encoding short-term motion details and long-term dependencies. DSFM further performs redundancy removal and extraction of complementary information for temporal features, then fuses them with spatial features, yielding an expressive spatio-temporal representation. Experimental results on the HumanML3D dataset demonstrate that HiSTF Mamba achieves state-of-the-art performance across multiple metrics. In particular, it reduces the FID score from 0.283 to 0.189, a relative decrease of nearly 30%. These findings validate the effectiveness of HiSTF Mamba in achieving high fidelity and strong semantic alignment in text-to-motion generation.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは、マルチモーダル学習とコンピュータグラフィックスの分野で急速に成長している分野であり、ゲーム、アニメーション、ロボティクス、バーチャルリアリティーにおける柔軟性と費用対効果を約束している。
既存のアプローチはしばしば、空間的な視点から見過ごされる一方、特徴の冗長性をもたらす単純な時空間的積み重ねに依存している。
この目的のために,新しいHiSTF Mambaフレームワークを提案する。
このフレームワークはDual-Spatial Mamba、Bi-Temporal Mamba、Dynamic Spatiotemporal Fusion Module (DSFM)の3つの主要なモジュールで構成されている。
Dual-Spatial Mamba は '`Part-based + Whole-based' の並列モデリングを取り入れ、全身調整ときめ細かい関節力学の両方を表現する。
両テンポラル・マンバは双方向走査方式を採用し、短期運動の詳細と長期依存を効果的に符号化する。
DSFMはさらに、時間的特徴に対する冗長性除去と補完情報の抽出を行い、空間的特徴と融合し、表現的な時空間表現をもたらす。
HumanML3Dデータセットの実験結果は、HiSTF Mambaが複数のメトリクスにわたって最先端のパフォーマンスを達成することを示した。
特に、FIDスコアが0.283から0.189に減少し、相対的に30%近く低下する。
以上の結果から,HiSTF Mambaがテキスト・トゥ・モーション生成において高い忠実性と強いセマンティックアライメントを実現する上での有効性が確認された。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba [20.941775037488863]
拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。
画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している
本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T10:00:14Z) - MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection [11.534493974662304]
未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
論文 参考訳(メタデータ) (2025-01-10T17:52:47Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文 参考訳(メタデータ) (2024-09-24T09:58:07Z) - PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-09-18T14:48:50Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。