論文の概要: LoViC: Efficient Long Video Generation with Context Compression
- arxiv url: http://arxiv.org/abs/2507.12952v1
- Date: Thu, 17 Jul 2025 09:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.43992
- Title: LoViC: Efficient Long Video Generation with Context Compression
- Title(参考訳): LoViC:コンテキスト圧縮による効率的なロングビデオ生成
- Authors: Jiaxiu Jiang, Wenbo Li, Jingjing Ren, Yuping Qiu, Yong Guo, Xiaogang Xu, Han Wu, Wangmeng Zuo,
- Abstract要約: 百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
- 参考スコア(独自算出の注目度): 68.22069741704158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in diffusion transformers (DiTs) for text-to-video generation, scaling to long-duration content remains challenging due to the quadratic complexity of self-attention. While prior efforts -- such as sparse attention and temporally autoregressive models -- offer partial relief, they often compromise temporal coherence or scalability. We introduce LoViC, a DiT-based framework trained on million-scale open-domain videos, designed to produce long, coherent videos through a segment-wise generation process. At the core of our approach is FlexFormer, an expressive autoencoder that jointly compresses video and text into unified latent representations. It supports variable-length inputs with linearly adjustable compression rates, enabled by a single query token design based on the Q-Former architecture. Additionally, by encoding temporal context through position-aware mechanisms, our model seamlessly supports prediction, retradiction, interpolation, and multi-shot generation within a unified paradigm. Extensive experiments across diverse tasks validate the effectiveness and versatility of our approach.
- Abstract(参考訳): テキスト・ビデオ生成における拡散変換器(DiT)の最近の進歩にもかかわらず、自己注意の2次複雑さのため、長期化コンテンツへのスケーリングは難しいままである。
余分な注意や時間的自己回帰モデルといった以前の取り組みは部分的な救済を提供する一方で、時間的一貫性やスケーラビリティを損なうこともしばしばあります。
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを導入し,セグメントワイズ生成プロセスを通じて,長いコヒーレントなビデオを生成するように設計された。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
線形に調整可能な圧縮レートを持つ可変長入力をサポートし、Q-Formerアーキテクチャに基づいた単一のクエリトークン設計によって実現されている。
さらに、位置認識機構を通じて時間的コンテキストを符号化することにより、統一パラダイム内での予測、再トラディクション、補間、マルチショット生成をシームレスにサポートする。
多様なタスクにわたる大規模な実験は、我々のアプローチの有効性と汎用性を検証する。
関連論文リスト
- Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Fast Autoregressive Video Generation with Diagonal Decoding [34.90521536645348]
DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。
本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。
DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
論文 参考訳(メタデータ) (2025-03-18T09:42:55Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model [15.320117192047265]
固定長シーケンスに空間的特徴と時間的特徴を別々に圧縮する新しいアーキテクチャである$textttEspresso$を導入する。
実験により、固定長圧縮とセグメントワイド処理を組み合わせることで、プールベースのアプローチに代わるスケーラブルで競争力のある代替手段が提供されることが示された。
論文 参考訳(メタデータ) (2024-12-06T02:39:50Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [19.590464986176617]
LetsTalkは、ビデオ合成のための拡散拡散TranSformerである。
提案手法は最先端の生成品質を実現し,時間的コヒーレントでリアルなビデオを生成する。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。