論文の概要: Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation
- arxiv url: http://arxiv.org/abs/2508.08991v1
- Date: Tue, 12 Aug 2025 14:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.468628
- Title: Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation
- Title(参考訳): フレキシブルモーション生成のための空間時間多スケール量子化
- Authors: Zan Wang, Jingze Zhang, Yixin Chen, Baoxiong Jia, Wei Liang, Siyuan Huang,
- Abstract要約: 動き列を空間次元と時間次元にまたがる多スケールの離散トークンに圧縮する新しい量子化手法MSQを紹介する。
MSQは、異なるエンコーダを使用して、異なる空間的粒度で体の部分を取り込んで、エンコーダされた特徴を複数のスケールに時間的に補間し、それらを離散トークンに定量化する。
- 参考スコア(独自算出の注目度): 33.74231168851631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in human motion generation, current motion representations, typically formulated as discrete frame sequences, still face two critical limitations: (i) they fail to capture motion from a multi-scale perspective, limiting the capability in complex patterns modeling; (ii) they lack compositional flexibility, which is crucial for model's generalization in diverse generation tasks. To address these challenges, we introduce MSQ, a novel quantization method that compresses the motion sequence into multi-scale discrete tokens across spatial and temporal dimensions. MSQ employs distinct encoders to capture body parts at varying spatial granularities and temporally interpolates the encoded features into multiple scales before quantizing them into discrete tokens. Building on this representation, we establish a generative mask modeling model to effectively support motion editing, motion control, and conditional motion generation. Through quantitative and qualitative analysis, we show that our quantization method enables the seamless composition of motion tokens without requiring specialized design or re-training. Furthermore, extensive evaluations demonstrate that our approach outperforms existing baseline methods on various benchmarks.
- Abstract(参考訳): ヒトの運動生成の著しい進歩にもかかわらず、現在の運動表現は、通常、離散的なフレームシーケンスとして定式化されるが、それでも2つの重要な限界に直面している。
i) 複雑なパターンモデリングの能力を制限するため、マルチスケールの観点からの動作のキャプチャに失敗する。
(II)構成の柔軟性は欠如しており,多種多様な生成タスクにおけるモデルの一般化に不可欠である。
これらの課題に対処するために,動作シーケンスを空間次元と時間次元にまたがる多スケールの離散トークンに圧縮する新しい量子化手法MSQを導入する。
MSQは、異なるエンコーダを使用して、異なる空間的粒度で体の部分を取り込んで、エンコーダされた特徴を複数のスケールに時間的に補間し、それらを離散トークンに定量化する。
この表現に基づいて,動作編集,動作制御,条件付き動作生成を効果的に支援する生成マスクモデルを構築した。
定量的および定性的な分析により、我々の量子化法は、特別な設計や再訓練を必要とせずに、動きトークンのシームレスな合成を可能にすることを示す。
さらに,提案手法は,様々なベンチマークにおいて,既存のベースライン手法よりも優れていることを示す。
関連論文リスト
- SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models [12.716956318428652]
SegQuantは、相互モデルの汎用性を高めるために相補的なテクニックを適応的に組み合わせた、統一的な量子化フレームワークである。
SegQuantはTransformerベースの拡散モデルを越えて広く適用でき、強力なパフォーマンスを実現し、メインストリームのデプロイメントツールとのシームレスな互換性を確保している。
論文 参考訳(メタデータ) (2025-07-20T04:00:53Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis [17.45562922442149]
我々は,マルチモーダル(テキスト,音楽,音声)とマルチパート(手,胴体)のヒューマンモーション生成を融合する,密着的でスケーラブルなアプローチを導入する。
本手法は,制御信号のモダリティに基づく特殊コードブックから,多モード動作生成課題をトークン予測タスクとして表現する。
論文 参考訳(メタデータ) (2023-11-28T04:13:49Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。