論文の概要: ActionPlan: Future-Aware Streaming Motion Synthesis via Frame-Level Action Planning
- arxiv url: http://arxiv.org/abs/2603.13500v1
- Date: Fri, 13 Mar 2026 18:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.24416
- Title: ActionPlan: Future-Aware Streaming Motion Synthesis via Frame-Level Action Planning
- Title(参考訳): ActionPlan:フレームレベルアクションプランニングによる将来対応型ストリーミングモーション合成
- Authors: Eric Nazarenus, Chuqiao Li, Yannan He, Xianghui Xie, Jan Eric Lenssen, Gerard Pons-Moll,
- Abstract要約: ActionPlanは、単一のモデル内で高品質なオフライン生成でリアルタイムストリーミングをブリッジする。
リアルタイムストリーミングは5.25倍高速であり, 従来の手法に比べて18%の動作品質向上を実現している。
- 参考スコア(独自算出の注目度): 32.581163427518185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ActionPlan, a unified motion diffusion framework that bridges real-time streaming with high-quality offline generation within a single model. The core idea is to introduce a per-frame action plan: the model predicts frame-level text latents that act as dense semantic anchors throughout denoising, and uses them to denoise the full motion sequence with combined semantic and motion cues. To support this structured workflow, we design latent-specific diffusion steps, allowing each motion latent to be denoised independently and sampled in flexible orders at inference. As a result, ActionPlan can run in a history-conditioned, future-aware mode for real-time streaming, while also supporting high-quality offline generation. The same mechanism further enables zero-shot motion editing and in-betweening without additional models. Experiments demonstrate that our real-time streaming is 5.25x faster while also achieving 18% motion quality improvement over the best previous method in terms of FID.
- Abstract(参考訳): 我々は,単一モデル内で高品質なオフライン生成でリアルタイムストリーミングをブリッジする,統合されたモーション拡散フレームワークであるActionPlanを提案する。
モデルはフレーム単位のアクションプランを導入し、デノナイズを通して密度の高いセマンティックアンカーとして機能するフレームレベルのテキストラテントを予測し、それらを使用して、フルモーションシーケンスをセマンティックとモーションキューの組み合わせでデノナイズする。
この構造的ワークフローをサポートするために、潜時固有の拡散ステップを設計し、各動き潜時を独立に分解し、推論時に柔軟な順序でサンプリングする。
その結果、ActionPlanは、リアルタイムストリーミングのための履歴条件付き将来のモードで実行でき、高品質のオフライン生成もサポートする。
同じメカニズムにより、追加のモデルなしでゼロショットモーション編集やイン・バイ・フィッシングが可能になる。
実験により、我々のリアルタイムストリーミングは5.25倍高速であり、FIDの観点からは最良手法に比べて18%の運動品質向上を実現していることが示された。
関連論文リスト
- Characterizing Motion Encoding in Video Diffusion Timesteps [50.13907856401258]
本研究では,映像拡散時間ステップにおける動きのエンコードについて,外観編集と動作保存のトレードオフによって検討する。
動作優位の早期体制と,その後に出現優位の体制を同定し,時間空間における動作優位の境界を導出する。
論文 参考訳(メタデータ) (2025-12-18T21:20:54Z) - Planning with Sketch-Guided Verification for Physics-Aware Video Generation [71.29706409814324]
そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
論文 参考訳(メタデータ) (2025-11-21T17:48:02Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。
唇の動き、頭部のポーズ、視線を高度に制御する。
論文 参考訳(メタデータ) (2025-10-12T15:10:33Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。