論文の概要: LILAC: Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding
- arxiv url: http://arxiv.org/abs/2510.15392v1
- Date: Fri, 17 Oct 2025 07:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.520909
- Title: LILAC: Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding
- Title(参考訳): LILAC: 因果デコード付きVAE拡散流による長時間低遅延任意運動スティル化
- Authors: Peng Ren, Hai Yang,
- Abstract要約: LILACは、任意のモーションスタイリングのための最近の高性能オフラインフレームワークの上に構築されている。
それは、スライディングウインドウの因果設計で、潜在空間のストリーミングアーキテクチャを通じて、オンライン環境に拡張する。
このアーキテクチャは、将来のフレームに依存したり、拡散モデルアーキテクチャを変更することなく、リアルタイムな任意のスタイル化を可能にする。
- 参考スコア(独自算出の注目度): 5.946860384629338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long and stylized human motions in real time is critical for applications that demand continuous and responsive character control. Despite its importance, existing streaming approaches often operate directly in the raw motion space, leading to substantial computational overhead and making it difficult to maintain temporal stability. In contrast, latent-space VAE-Diffusion-based frameworks alleviate these issues and achieve high-quality stylization, but they are generally confined to offline processing. To bridge this gap, LILAC (Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding) builds upon a recent high-performing offline framework for arbitrary motion stylization and extends it to an online setting through a latent-space streaming architecture with a sliding-window causal design and the injection of decoded motion features to ensure smooth motion transitions. This architecture enables long-sequence real-time arbitrary stylization without relying on future frames or modifying the diffusion model architecture, achieving a favorable balance between stylization quality and responsiveness as demonstrated by experiments on benchmark datasets. Supplementary video and examples are available at the project page: https://pren1.github.io/lilac/
- Abstract(参考訳): 長めでスタイリングされた人間の動きをリアルタイムで生成することは、連続的かつ応答性のある文字制御を必要とするアプリケーションにとって重要である。
その重要性にもかかわらず、既存のストリーミングアプローチは、しばしば生のモーション空間で直接動作するため、計算上のオーバーヘッドが大きくなり、時間的安定性の維持が困難になる。
対照的に、潜在空間のVAE-Diffusionベースのフレームワークはこれらの問題を緩和し、高品質なスタイリングを実現するが、一般的にはオフライン処理に限られる。
このギャップを埋めるために、LILAC(Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding)は、任意のモーションスタイリングのための最近の高性能オフラインフレームワークを構築し、スライディングウインドウの因果設計とデコードされたモーション特徴の注入により、スムーズなモーション遷移を保証するために、遅延スペースストリーミングアーキテクチャを通じてオンライン設定に拡張した。
このアーキテクチャは、将来のフレームに依存することなく、あるいは拡散モデルアーキテクチャを変更することなく、長時間の任意のスタイル化を可能にする。
追加のビデオとサンプルはプロジェクトのページで見ることができる。
関連論文リスト
- Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [96.50160784402338]
動的ポイントクラウド圧縮のためのFMT(Motion Transformation Feature)フレームワークを提案する。
FMTは明示的な運動ベクトルを連続時間変動を暗黙的にモデル化するアライメント戦略に置き換える。
本手法は, 符号化効率と復号効率の両方でD-DPCCおよびAdaDPCCを上回り, 20%, 9.4%のBD-Rate還元を達成する。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space [40.60429652169086]
テキスト条件付きストリーミングモーション生成では、可変長の歴史的動きと入ってくるテキストに基づいて、次のステップの人間のポーズを予測する必要がある。
既存の方法は、例えば拡散モデルが予め定義された動き長によって制約されるような、ストリーミングモーション生成を達成するのに苦労している。
本研究では,連続因果遅延空間を確率論的自己回帰モデルに組み込む新しいフレームワークであるMotionStreamerを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:32:24Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Progressive Temporal Feature Alignment Network for Video Inpainting [51.26380898255555]
ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
論文 参考訳(メタデータ) (2021-04-08T04:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。