論文の概要: Not All Frames Are Equal: Complexity-Aware Masked Motion Generation via Motion Spectral Descriptors
- arxiv url: http://arxiv.org/abs/2603.29655v1
- Date: Tue, 31 Mar 2026 12:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.634344
- Title: Not All Frames Are Equal: Complexity-Aware Masked Motion Generation via Motion Spectral Descriptors
- Title(参考訳): すべてのフレームが等しくない:運動スペクトル記述子による複雑度を考慮したマスキング運動生成
- Authors: Pengfei Zhou, Xiangyue Zhang, Xukun Shen, Yong Hu,
- Abstract要約: 仮面生成モデルは、テキストとモーションの合成において強力なパラダイムとなっているが、それでも動きのフレームを不均一に扱う。
本研究では,現在のマスク型モーションジェネレータが動的に複雑な動きに対して不均等に劣化していることを示す。
このミスマッチに触発された運動スペクトル記述子(MSD)は,局所的動的複雑性の単純かつパラメータフリーな尺度である。
- 参考スコア(独自算出の注目度): 10.685712212496753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked generative models have become a strong paradigm for text-to-motion synthesis, but they still treat motion frames too uniformly during masking, attention, and decoding. This is a poor match for motion, where local dynamic complexity varies sharply over time. We show that current masked motion generators degrade disproportionately on dynamically complex motions, and that frame-wise generation error is strongly correlated with motion dynamics. Motivated by this mismatch, we introduce the Motion Spectral Descriptor (MSD), a simple and parameter-free measure of local dynamic complexity computed from the short-time spectrum of motion velocity. Unlike learned difficulty predictors, MSD is deterministic, interpretable, and derived directly from the motion signal itself. We use MSD to make masked motion generation complexity-aware. In particular, MSD guides content-focused masking during training, provides a spectral similarity prior for self-attention, and can additionally modulate token-level sampling during iterative decoding. Built on top of masked motion generators, our method, DynMask, improves motion generation most clearly on dynamically complex motions while also yielding stronger overall FID on HumanML3D and KIT-ML. These results suggest that respecting local motion complexity is a useful design principle for masked motion generation. Project page: https://xiangyue-zhang.github.io/DynMask
- Abstract(参考訳): マスケ生成モデルは、テキストとモーションの合成において強力なパラダイムとなっているが、マスク、注意、復号の際には動きのフレームを不均一に扱いすぎている。
これは、局所的なダイナミックな複雑さが時間とともに急激に変化する動きと一致しない。
本研究では,現在のマスク付きモーションジェネレータが動的に複雑な動きに対して不均等に劣化し,フレームワイズ生成誤差が運動力学と強く相関していることを示す。
このミスマッチに触発された運動スペクトル記述器(MSD)は、運動速度の短時間スペクトルから計算される局所的動的複雑性の単純かつパラメータフリーな尺度である。
学習困難予測器とは異なり、MSDは決定論的であり、解釈可能であり、運動信号自体から直接導出される。
我々はMSDを用いて、マスクされた動き生成複雑性を認識させる。
特にMSDは、トレーニング中にコンテンツ中心のマスキングをガイドし、自己アテンションに先立ってスペクトル類似性を提供し、反復復号時にトークンレベルのサンプリングを付加的に調整することができる。
マスク付きモーションジェネレータ上に構築したDynMaskは、動的に複雑な動きに対して最も明確な動作生成を改善すると同時に、HumanML3DとKIT-MLの全体的なFIDも強化する。
これらの結果は、局所的な動きの複雑さを尊重することが、マスクされた動きの生成に有用な設計原理であることを示唆している。
プロジェクトページ:https://xiangyue-zhang.github.io/DynMask
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。
我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。
Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文 参考訳(メタデータ) (2025-03-10T06:04:31Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。