論文の概要: ScaleMoGen: Autoregressive Next-Scale Prediction for Human Motion Generation
- arxiv url: http://arxiv.org/abs/2605.11704v1
- Date: Tue, 12 May 2026 07:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.683851
- Title: ScaleMoGen: Autoregressive Next-Scale Prediction for Human Motion Generation
- Title(参考訳): ScaleMoGen: ヒューマンモーション生成のための自動回帰的次世代予測
- Authors: Inwoo Hwang, Hojun Jang, Bing Zhou, Jian Wang, Young Min Kim, Chuan Guo,
- Abstract要約: ScaleMoGenは、テキスト駆動型ヒューマンモーション生成のためのスケールワイド自動回帰フレームワークである。
我々は3次元運動を、複数の骨格-初期スケールにまたがる合成離散トークンに量子化する。
我々の骨格・時間的マルチスケール表現は、自然にトレーニング不要でテキスト誘導型モーション編集を容易にする。
- 参考スコア(独自算出の注目度): 21.04046292025699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present ScaleMoGen, a scale-wise autoregressive framework for text-driven human motion generation. Unlike conventional autoregressive approaches that rely on standard next-token prediction, ScaleMoGen frames motion generation as a coarse-to-fine process. We quantize 3D motions into compositional discrete tokens across multiple skeletal-emporal scales of increasing granularity, learning to generate motion by autoregressively predicting next-scale token maps. To maintain structural integrity, our motion tokenizers and quantizers are explicitly designed so that discrete tokens at every scale strictly preserve the skeletal hierarchy. Additionally, we employ bitwise quantization and prediction, which efficiently scale up the tokenizer vocabulary to preserve motion details and stabilize optimization. Extensive experiments demonstrate that ScaleMoGen achieves state-of-the-art performance, establishing an FID of 0.030 (vs. 0.045 for MoMask) on HumanML3D and a CLIP Score of 0.693 (vs. 0.685 for MoMask++) on the SnapMoGen dataset. Furthermore, we demonstrate that our skeletal-temporal multi-scale representation naturally facilitates training-free, text-guided motion editing.
- Abstract(参考訳): テキスト駆動型ヒューマンモーション生成のためのスケールワイド自動回帰フレームワークであるScaleMoGenを提案する。
標準的な次世代予測に依存する従来の自己回帰アプローチとは異なり、ScaleMoGenは粗大なプロセスとしてモーション生成をフレーム化している。
我々は,3次元の運動を,複数の骨格的・現代的スケールにまたがって構成的な離散トークンに量子化し,次のスケールのトークンマップを自動回帰予測することで運動を生成することを学習する。
構造的整合性を維持するため、我々のモーショントークンライザと量子化器は、各スケールの離散トークンが骨格階層を厳密に保持するように明示的に設計されている。
さらに、ビットワイズ量子化と予測を用いて、トークン化語彙を効率的にスケールアップし、運動の詳細を保存し、最適化を安定化する。
大規模な実験では、ScaleMoGenが最先端のパフォーマンスを実現し、HumanML3Dで0.030(MoMaskで0.045)、SnapMoGenデータセットで0.693(MoMask++で0.0685)のCLIPスコアを確立した。
さらに,我々の骨格・時間的マルチスケール表現は,トレーニング不要でテキスト誘導型モーション編集を自然に促進することを示した。
関連論文リスト
- Next-Scale Autoregressive Models for Text-to-Motion Generation [35.54703580430989]
MoScaleは、粗い時間分解から微妙な時間分解まで、動きを階層的に生成する、次世代のARフレームワークである。
MoScaleは、高いトレーニング効率でSOTAテキスト・トゥ・モーションのパフォーマンスを実現し、モデルサイズで効果的にスケールし、ゼロショットを多様なモーション生成および編集タスクに一般化する。
論文 参考訳(メタデータ) (2026-04-04T17:07:37Z) - HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation [63.04826523091837]
HY-Motion 1.0は、テキスト記述から人間の3D動作を生成することができる最先端の大規模モーション生成モデルである。
3000時間以上のモーションデータに対する大規模な事前トレーニングを含む、包括的なフルステージトレーニングパラダイムを導入します。
我々のモデルは6つの主要なクラスで200以上の運動カテゴリにまたがる、最も広範なカバレッジを実現している。
論文 参考訳(メタデータ) (2025-12-29T13:46:24Z) - MoSa: Motion Generation with Scalable Autoregressive Modeling [41.75643989500953]
テキスト駆動型3次元モーション生成のための新しい階層型モーション生成フレームワークであるMoSaを紹介する。
MoSaは最先端の生成品質と効率を達成し、忠実さとスピードの両方で先行手法より優れています。
MoSaはモーション編集などの下流タスクを一般化し、追加の微調整を必要としない。
論文 参考訳(メタデータ) (2025-11-03T03:47:58Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-29T19:04:10Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。