論文の概要: Adapting VACE for Real-Time Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2602.14381v1
- Date: Mon, 16 Feb 2026 01:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.038386
- Title: Adapting VACE for Real-Time Autoregressive Video Diffusion
- Title(参考訳): リアルタイム自己回帰ビデオ拡散に対するVACEの適用
- Authors: Ryan Fosdick,
- Abstract要約: 本稿では、リアルタイム自動回帰ビデオ生成のためのVACE(Video All-in-one Creation and Editing)の適応について述べる。
VACEは、統合ビデオ制御(参照誘導、構造条件付け、塗装、時間拡張)を提供するが、全シーケンスに対する双方向の注意を前提としている。
鍵修正は、参照フレームを拡散潜在空間から並列条件経路に移動させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe an adaptation of VACE (Video All-in-one Creation and Editing) for real-time autoregressive video generation. VACE provides unified video control (reference guidance, structural conditioning, inpainting, and temporal extension) but assumes bidirectional attention over full sequences, making it incompatible with streaming pipelines that require fixed chunk sizes and causal attention. The key modification moves reference frames from the diffusion latent space into a parallel conditioning pathway, preserving the fixed chunk sizes and KV caching that autoregressive models require. This adaptation reuses existing pretrained VACE weights without additional training. Across 1.3B and 14B model scales, VACE adds 20-30% latency overhead for structural control and inpainting, with negligible VRAM cost relative to the base model. Reference-to-video fidelity is severely degraded compared to batch VACE due to causal attention constraints. A reference implementation is available at https://github.com/daydreamlive/scope.
- Abstract(参考訳): 本稿では、リアルタイム自動回帰ビデオ生成のためのVACE(Video All-in-one Creation and Editing)の適応について述べる。
VACEは、統一されたビデオ制御(参照誘導、構造条件付け、塗装、時間拡張)を提供するが、全シーケンスに対する双方向の注意を前提としており、一定のチャンクサイズと因果的注意を必要とするストリーミングパイプラインと互換性がない。
鍵となる修正は、参照フレームを拡散潜在空間から並列条件経路に移動させ、自己回帰モデルに必要な固定されたチャンクサイズとKVキャッシュを保存する。
この適応は、既存の事前訓練されたVACE重量を追加訓練なしで再利用する。
1.3Bと14Bのモデルスケールで、VACEは構造制御と塗装のための20-30%の遅延オーバーヘッドを追加し、ベースモデルに対するVRAMコストは無視できる。
ビデオ間の参照忠実度は、因果的注意制約によりバッチVACEと比較して著しく低下する。
リファレンス実装はhttps://github.com/daydreamlive/scope.comで公開されている。
関連論文リスト
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping [42.87624197744494]
V-Warperは、トランスフォーマーベースのビデオ拡散モデルのためのトレーニング不要な粗いパーソナライズフレームワークである。
追加のビデオトレーニングを必要とせずに、きめ細かいアイデンティティの忠実度を高める。
即時アライメントと動きのダイナミクスを保ちながら、外観の忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-13T16:05:52Z) - MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model [2.9795035162522194]
この記事では、ビデオレンダリングのための軽量で自己監督型の拡散ベースのフレームワークであるMiVIDを紹介する。
本モデルでは,3次元U-Netバックボーンとトランスフォーマスタイルの時間的注意を組み合わせることで,明示的な動き推定の必要性を解消する。
この結果から,MiVIDは50エポックしか得られず,教師付きベースラインと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-08T14:10:04Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。