論文の概要: Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks
- arxiv url: http://arxiv.org/abs/2503.17539v1
- Date: Fri, 21 Mar 2025 21:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:59.914237
- Title: Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks
- Title(参考訳): 高速かつ低速なビデオ生成:ビデオインターフェースネットワークによるスケーラブルな並列ビデオ生成
- Authors: Bhishma Dedhia, David Bourgin, Krishna Kumar Singh, Yuheng Li, Yan Kang, Zhan Xu, Niraj K. Jha, Yuchen Liu,
- Abstract要約: 本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。
VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。
フルジェネレーションよりも25~40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
- 参考スコア(独自算出の注目度): 21.710127132217526
- License:
- Abstract: Diffusion Transformers (DiTs) can generate short photorealistic videos, yet directly training and sampling longer videos with full attention across the video remains computationally challenging. Alternative methods break long videos down into sequential generation of short video segments, requiring multiple sampling chain iterations and specialized consistency modules. To overcome these challenges, we introduce a new paradigm called Video Interface Networks (VINs), which augment DiTs with an abstraction module to enable parallel inference of video chunks. At each diffusion step, VINs encode global semantics from the noisy input of local chunks and the encoded representations, in turn, guide DiTs in denoising chunks in parallel. The coupling of VIN and DiT is learned end-to-end on the denoising objective. Further, the VIN architecture maintains fixed-size encoding tokens that encode the input via a single cross-attention step. Disentangling the encoding tokens from the input thus enables VIN to scale to long videos and learn essential semantics. Experiments on VBench demonstrate that VINs surpass existing chunk-based methods in preserving background consistency and subject coherence. We then show via an optical flow analysis that our approach attains state-of-the-art motion smoothness while using 25-40% fewer FLOPs than full generation. Finally, human raters favorably assessed the overall video quality and temporal consistency of our method in a user study.
- Abstract(参考訳): Diffusion Transformers (DiTs) は短いフォトリアリスティックなビデオを生成することができるが、ビデオ全体にわたって注意を払って、より長いビデオを直接トレーニングし、サンプリングすることは、計算的に困難である。
別の方法は、長いビデオを連続した短いビデオセグメントに分解し、複数のサンプリングチェーンイテレーションと特別な一貫性モジュールを必要とする。
これらの課題を克服するために,ビデオ・インタフェース・ネットワーク(VIN)と呼ばれる新しいパラダイムを導入する。
各拡散ステップにおいて、VINは局所チャンクのノイズ入力からグローバルセマンティクスをエンコードし、エンコードされた表現は、並列にチャンクを識別するDiTを誘導する。
VINとDiTの結合は、認知目標に基づいてエンドツーエンドに学習される。
さらに、VINアーキテクチャは、単一のクロスアテンションステップを介して入力を符号化する固定サイズエンコーディングトークンを維持している。
エンコーディングトークンを入力から切り離すことで、VINは長いビデオにスケールし、本質的な意味学を学ぶことができる。
VBenchの実験では、VINは背景の一貫性と主題の一貫性を保つために既存のチャンクベースの手法を超越している。
次に,本手法はフルジェネレーションよりも25~40%少ないFLOPを用いて,最先端の動作の滑らかさを実現することができることを示す。
最後に,提案手法の映像品質と時間的整合性をユーザスタディで好意的に評価した。
関連論文リスト
- DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。