論文の概要: Multi-scale Coarse-to-fine Modeling for Test-time Human Motion Control
- arxiv url: http://arxiv.org/abs/2605.14935v1
- Date: Thu, 14 May 2026 15:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.900903
- Title: Multi-scale Coarse-to-fine Modeling for Test-time Human Motion Control
- Title(参考訳): 実時間人間の動作制御のためのマルチスケール粗粒度モデリング
- Authors: Nhat Le, Daochang Liu, Anh Nguyen, Ajmal Mian,
- Abstract要約: MSCoTは、テストタイムの人間のモーション合成と制御のための、マルチスケールで粗い粒度モデルである。
MSCoTは動きを多スケールの階層表現に識別し、各時間スケールでトークンシーケンス全体を予測する。
- 参考スコア(独自算出の注目度): 51.92884966472683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MSCoT, a multi-scale, coarse-to-fine model for test-time human motion synthesis and control. Unlike recent approaches that rely on multiple iterative denoising/token-prediction steps, or modules tailored for specific control signals, MSCoT discretizes motion into a multi-scale hierarchical representation and predicts the entire token sequence at each temporal scale in a coarse-to-fine fashion. Building on this coarse-to-fine paradigm, we propose an efficient multi-scale token guidance strategy that overcomes the challenge of discrete sampling and steers the token distribution towards the control goals, allowing for fast and flexible control. To address the limitations of a discrete codebook, a lightweight token refiner further adds continuous residuals to the discrete token embeddings and allows differentiable test-time refinement optimization to ensure precise alignment with the control objectives. MSCoT is able to produce quality motions, consistent with the control constraints, while offering substantially faster sampling than diffusion-based approaches. Experiments on popular benchmarks demonstrate state-of-the-art controllable text-to-motion generation performance of MSCoT over existing baselines, with better motion quality (48% FID improvement), higher control accuracy (-61% avg error), and $10 \times$ faster inference speed on HumanML3D.
- Abstract(参考訳): テスト時間人間の動作合成と制御のためのマルチスケール粗大度モデルMSCoTを提案する。
特定の制御信号用に調整されたモジュールや複数の反復的デノイング/トケン予測ステップに依存する最近のアプローチとは異なり、MSCoTは動きをマルチスケールの階層表現に識別し、各時間スケールのトークンシーケンス全体を粗い方法で予測する。
この粗大なパラダイムに基づいて、離散サンプリングの課題を克服し、トークン分布を制御目標に向けて制御し、高速かつ柔軟な制御を可能にする、効率的なマルチスケールトークン誘導戦略を提案する。
離散的なコードブックの限界に対処するため、軽量なトークン精錬器は離散的なトークン埋め込みにさらに連続的な残差を追加し、異なるテスト時間精錬最適化を可能にし、制御対象との正確な整合性を確保する。
MSCoTは、拡散ベースのアプローチよりもはるかに高速なサンプリングを提供しながら、制御制約に整合した高品質な動作を生成することができる。
一般的なベンチマークの実験では、既存のベースラインに対するMSCoTの最先端の制御可能なテキスト・ツー・モーション生成性能が、より優れたモーション品質(48%のFID改善)、より高い制御精度(61%のavgエラー)、そしてHumanML3Dにおける10 \times$高速な推論速度で示されている。
関連論文リスト
- From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。