論文の概要: MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
- arxiv url: http://arxiv.org/abs/2503.15451v2
- Date: Wed, 16 Apr 2025 12:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 20:12:21.005277
- Title: MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
- Title(参考訳): MotionStreamer: 因果ラテント空間における拡散型自己回帰モデルによるストリーミング動作生成
- Authors: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang,
- Abstract要約: テキスト条件付きストリーミングモーション生成では、可変長の歴史的動きと入ってくるテキストに基づいて、次のステップの人間のポーズを予測する必要がある。
既存の方法は、例えば拡散モデルが予め定義された動き長によって制約されるような、ストリーミングモーション生成を達成するのに苦労している。
本研究では,連続因果遅延空間を確率論的自己回帰モデルに組み込む新しいフレームワークであるMotionStreamerを提案する。
- 参考スコア(独自算出の注目度): 40.60429652169086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/
- Abstract(参考訳): 本稿では,可変長の歴史的動きと入ってくるテキストに基づいて,次のステップの人間のポーズを予測することを必要とする,テキスト条件付きストリーミングモーション生成の課題に対処する。
既存の手法では、例えば、拡散モデルが予め定義された動き長によって制約されるのに対して、GPTベースの手法は、離散化された非因果トークン化による遅延応答とエラー蓄積の問題に悩まされている。
これらの問題を解決するために,連続因果遅延空間を確率論的自己回帰モデルに組み込んだ新しいフレームワークであるMotionStreamerを提案する。
連続潜伏剤は、離散化による情報損失を軽減し、長期自己回帰生成時のエラー蓄積を効果的に低減する。
さらに,現在と過去の動作遅延の時間的因果関係を確立することで,利用可能な情報を十分に活用し,正確なオンライン動作復号化を実現する。
実験により,本手法は,複数ラウンド生成,長期生成,動的動作合成など,既存手法よりも優れた性能を示すことが示された。
プロジェクトページ: https://zju3dv.github.io/MotionStreamer/
関連論文リスト
- FlowLoss: Dynamic Flow-Conditioned Loss Strategy for Video Diffusion Models [9.469635938429647]
ビデオ拡散モデル(VDM)は高品質なビデオを生成することができるが、時間的に一貫した動きを生み出すのにしばしば苦労する。
本研究では,生成した映像から抽出した流れ場を直接比較するFlowLossを提案する。
本研究は,騒音条件付き生成モデルにモーションベース制御を組み込むための実用的な知見を提供する。
論文 参考訳(メタデータ) (2025-04-20T08:22:29Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding [29.643549839940025]
本稿では,離散的な動きトークンを復号化するための新しい手法であるDisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decodingを紹介する。
私たちの中核となる考え方は、トークンのデコーディングを条件生成タスクとしてフレーム化し、DisCoRDがよりきめ細かなダイナミックスとよりスムーズで自然な動きをキャプチャすることを保証することです。
論文 参考訳(メタデータ) (2024-11-29T07:54:56Z) - DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DartControlは、リアルタイムテキスト駆動モーションコントロールのための拡散ベースの自動回帰モーションプリミティブモデルである。
本モデルは,動作履歴とテキスト入力を併用したコンパクトな動き原始空間を効果的に学習する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - Lagrangian Motion Fields for Long-term Motion Generation [32.548139921363756]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - RecMoDiffuse: Recurrent Flow Diffusion for Human Motion Generation [5.535590461577558]
RecMoDiffuseは時間モデリングのための新しい再帰拡散定式化である。
人間の動作の時間的モデリングにおけるRecMoDiffuseの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T11:25:37Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。