論文の概要: MoSa: Motion Generation with Scalable Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2511.01200v1
- Date: Mon, 03 Nov 2025 03:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.110011
- Title: MoSa: Motion Generation with Scalable Autoregressive Modeling
- Title(参考訳): MoSa: スケーラブルな自己回帰モデリングによるモーションジェネレーション
- Authors: Mengyuan Liu, Sheng Yan, Yong Wang, Yingjie Li, Gui-Bin Bian, Hong Liu,
- Abstract要約: テキスト駆動型3次元モーション生成のための新しい階層型モーション生成フレームワークであるMoSaを紹介する。
MoSaは最先端の生成品質と効率を達成し、忠実さとスピードの両方で先行手法より優れています。
MoSaはモーション編集などの下流タスクを一般化し、追加の微調整を必要としない。
- 参考スコア(独自算出の注目度): 41.75643989500953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MoSa, a novel hierarchical motion generation framework for text-driven 3D human motion generation that enhances the Vector Quantization-guided Generative Transformers (VQ-GT) paradigm through a coarse-to-fine scalable generation process. In MoSa, we propose a Multi-scale Token Preservation Strategy (MTPS) integrated into a hierarchical residual vector quantization variational autoencoder (RQ-VAE). MTPS employs interpolation at each hierarchical quantization to effectively retain coarse-to-fine multi-scale tokens. With this, the generative transformer supports Scalable Autoregressive (SAR) modeling, which predicts scale tokens, unlike traditional methods that predict only one token at each step. Consequently, MoSa requires only 10 inference steps, matching the number of RQ-VAE quantization layers. To address potential reconstruction degradation from frequent interpolation, we propose CAQ-VAE, a lightweight yet expressive convolution-attention hybrid VQ-VAE. CAQ-VAE enhances residual block design and incorporates attention mechanisms to better capture global dependencies. Extensive experiments show that MoSa achieves state-of-the-art generation quality and efficiency, outperforming prior methods in both fidelity and speed. On the Motion-X dataset, MoSa achieves an FID of 0.06 (versus MoMask's 0.20) while reducing inference time by 27 percent. Moreover, MoSa generalizes well to downstream tasks such as motion editing, requiring no additional fine-tuning. The code is available at https://mosa-web.github.io/MoSa-web
- Abstract(参考訳): 本稿では, ベクトル量子化誘導型生成変換器(VQ-GT)のパラダイムを, 粗大なスケーラブルな生成プロセスを通じて強化する, テキスト駆動型3次元モーション生成のための新しい階層型モーション生成フレームワークであるMoSaを紹介する。
MoSaでは,階層型残差ベクトル量子化変分オートエンコーダ(RQ-VAE)に組み込まれたマルチスケールトークン保存戦略(MTPS)を提案する。
MTPSは各階層量子化において補間を用いて、粗いマルチスケールトークンを効果的に保持する。
これにより、生成トランスフォーマーは、各ステップで1つのトークンだけを予測する従来の方法とは異なり、スケールトークンを予測する、スケーラブル自動回帰(SAR)モデリングをサポートする。
その結果、MoSaは10ステップしか必要とせず、RQ-VAE量子化層の数と一致する。
頻繁な補間による潜在的再構成の劣化を解決するために,軽量かつ表現力に富んだ畳み込み型ハイブリッドVQ-VAEを提案する。
CAQ-VAEは、残余ブロック設計を強化し、グローバルな依存関係をよりよく捉えるための注意機構を組み込んだ。
大規模な実験により、MoSaは最先端の生成品質と効率を達成し、忠実さとスピードの両方で先行手法より優れていたことが示されている。
Motion-Xデータセットでは、MoSaは0.06(MoMaskの0.20)のFIDを達成し、推論時間を27%削減した。
さらに、MoSaはモーション編集などの下流タスクを一般化し、追加の微調整を必要としない。
コードはhttps://mosa-web.github.io/MoSa-webで入手できる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - ReMoMask: Retrieval-Augmented Masked Motion Generation [13.42229775333369]
Text-to-Motion (T2M) の生成は、自然言語記述から現実的で意味的に整合した人間の動作シーケンスを合成することを目的としている。
3つの重要なイノベーションを統合する統合フレームワークであるReMoMaskを提案する。
双方向Momentum Text-Motion Modelは、モーメントキューを介してバッチサイズから負のサンプルスケールを分離し、クロスモーダル検索精度を大幅に改善する。
Semantic Spatio-temporal Attentionメカニズムは、非同期アーティファクトを排除するために、部分レベル融合中の生体力学的制約を強制する。
論文 参考訳(メタデータ) (2025-08-04T16:56:35Z) - MOGO: Residual Quantized Hierarchical Causal Transformer for High-Quality and Real-Time 3D Human Motion Generation [3.6669020073583756]
MOGOは、効率的でリアルタイムな3Dモーション生成に適した新しい自動回帰フレームワークである。
MoGOは、運動スケール適応型残留ベクトル量子化モジュールであるMoSA-VQと、残留量子化階層型因果変換器であるRQHC-Transformerの2つの重要なコンポーネントから構成される。
意味的忠実性を高めるために,テキスト制御下での動作復号化を改善するテキスト条件アライメント機構を導入する。
論文 参考訳(メタデータ) (2025-06-06T10:26:54Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。