論文の概要: Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation
- arxiv url: http://arxiv.org/abs/2503.06897v2
- Date: Tue, 20 May 2025 10:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.852961
- Title: Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation
- Title(参考訳): テキスト駆動動作生成のための冗長性のない時空間融合を用いた多粒体モデリング
- Authors: Xingzu Zhan, Chen Xie, Honghang Chen, Haoran Sun, Xiaochun Mai,
- Abstract要約: HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
- 参考スコア(独自算出の注目度): 10.843503146808839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation sits at the intersection of multimodal learning and computer graphics and is gaining momentum because it can simplify content creation for games, animation, robotics and virtual reality. Most current methods stack spatial and temporal features in a straightforward way, which adds redundancy and still misses subtle joint-level cues. We introduce HiSTF Mamba, a framework with three parts: Dual-Spatial Mamba, Bi-Temporal Mamba and a Dynamic Spatiotemporal Fusion Module (DSFM). The Dual-Spatial module runs part-based and whole-body models in parallel, capturing both overall coordination and fine-grained joint motion. The Bi-Temporal module scans sequences forward and backward to encode short-term details and long-term dependencies. DSFM removes redundant temporal information, extracts complementary cues and fuses them with spatial features to build a richer spatiotemporal representation. Experiments on the HumanML3D benchmark show that HiSTF Mamba performs well across several metrics, achieving high fidelity and tight semantic alignment between text and motion.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションはマルチモーダル学習とコンピュータグラフィックスの交差点に位置しており、ゲーム、アニメーション、ロボティクス、バーチャルリアリティーのコンテンツ作成を簡素化できるため、勢いを増している。
現在のほとんどのメソッドは、空間的特徴と時間的特徴を直接的に積み重ねており、冗長性を増し、それでも微妙な関節レベルの手がかりを見逃している。
2つの部分からなるフレームワークであるHiSTF Mambaについて紹介する。2つの部分:Dual-Spatial Mamba, Bi-Temporal Mamba, Dynamic Spatiotemporal Fusion Module (DSFM)である。
Dual-Spatialモジュールは、部分ベースモデルと全体モデルとを並列に実行し、全体的な調整ときめ細かい関節運動の両方をキャプチャする。
Bi-Temporalモジュールは、シーケンスを前後にスキャンして、短期の詳細と長期依存関係をエンコードする。
DSFMは冗長な時間情報を取り除き、補完的な手がかりを抽出し、空間的特徴を融合してより豊かな時空間表現を構築する。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
関連論文リスト
- TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba [20.941775037488863]
拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。
画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している
本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T10:00:14Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文 参考訳(メタデータ) (2024-09-24T09:58:07Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。