論文の概要: PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition
- arxiv url: http://arxiv.org/abs/2603.08590v2
- Date: Tue, 10 Mar 2026 03:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.134766
- Title: PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition
- Title(参考訳): PRISM: 一人の潜在分解による人間の動きのストリーミング
- Authors: Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou,
- Abstract要約: 既存のモーションオートエンコーダは各フレームを1つのモノリシック潜在ベクトルに圧縮する。
PRISMを提示し、各課題に専用のコントリビューションで対処する。
本研究では,テキスト・ツー・モーション,ポーズ・コンディショニング,自己回帰的逐次生成,ナラティブ・モーション・コンポジションをシームレスに扱う単一動作生成基盤モデルを訓練する。
- 参考スコア(独自算出の注目度): 42.434871160461206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation has advanced rapidly, yet two challenges persist. First, existing motion autoencoders compress each frame into a single monolithic latent vector, entangling trajectory and per-joint rotations in an unstructured representation that downstream generators struggle to model faithfully. Second, text-to-motion, pose-conditioned generation, and long-horizon sequential synthesis typically require separate models or task-specific mechanisms, with autoregressive approaches suffering from severe error accumulation over extended rollouts. We present PRISM, addressing each challenge with a dedicated contribution. (1) A joint-factorized motion latent space: each body joint occupies its own token, forming a structured 2D grid (time joints) compressed by a causal VAE with forward-kinematics supervision. This simple change to the latent space -- without modifying the generator -- substantially improves generation quality, revealing that latent space design has been an underestimated bottleneck. (2) Noise-free condition injection: each latent token carries its own timestep embedding, allowing conditioning frames to be injected as clean tokens (timestep0) while the remaining tokens are denoised. This unifies text-to-motion and pose-conditioned generation in a single model, and directly enables autoregressive segment chaining for streaming synthesis. Self-forcing training further suppresses drift in long rollouts. With these two components, we train a single motion generation foundation model that seamlessly handles text-to-motion, pose-conditioned generation, autoregressive sequential generation, and narrative motion composition, achieving state-of-the-art on HumanML3D, MotionHub, BABEL, and a 50-scenario user study.
- Abstract(参考訳): テキスト・ツー・モーション・ジェネレーションは急速に進歩しているが、2つの課題が続いている。
まず、既存のモーションオートエンコーダが各フレームを単一のモノリシックな潜在ベクトルに圧縮し、下流ジェネレータが忠実にモデル化するのに苦労する非構造表現で軌道と接合部間の回転を絡み合わせる。
第二に、テキスト・トゥ・モーション、ポーズ・コンディショニング、ロング・ホライゾン・シーケンシャル合成は、通常、別個のモデルやタスク固有のメカニズムを必要とする。
PRISMを提示し、各課題に専用のコントリビューションで対処する。
1) 運動遅延空間:各体がそれぞれのトークンを占有し、前方運動学を監督した因果的VAEにより圧縮された2Dグリッド(時間関節)を形成する。
この単純な変更 -- ジェネレータを変更することなく -- は、生成品質を大幅に改善し、潜在空間設計が過小評価されたボトルネックであることを明らかにした。
2) ノイズフリーな条件注入: 各潜伏トークンは独自のタイムステップ埋め込みを持ち、残りのトークンがデノーズされる間、条件フレームをクリーントークン(タイムステップ0)として注入することができる。
これにより、単一のモデルでテキスト・ツー・モーションとポーズ・コンディショニングの生成を統一し、ストリーミング合成のための自己回帰セグメント・チェーンを直接実現できる。
セルフフォーストレーニングは、長いロールアウトでのドリフトをさらに抑制します。
これら2つのコンポーネントを用いて,テキスト・ツー・モーション,ポーズ・コンディション生成,自己回帰的逐次生成,物語動作構成をシームレスに処理し,HumanML3D,MotionHub,BABEL,50-scenarioユーザ・スタディを達成できる単一動作生成基盤モデルを訓練する。
関連論文リスト
- Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades [32.12940211414945]
両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
論文 参考訳(メタデータ) (2026-03-09T07:04:29Z) - UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling [45.29560152294065]
UniHandは、条件付きモーション合成として推定と生成の両方を定式化する統合拡散ベースのフレームワークである。
視覚観察は凍結したバックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出する。
潜在拡散モデルは、様々な条件から一貫した動き列を合成する。
論文 参考訳(メタデータ) (2026-02-25T06:53:15Z) - HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。