論文の概要: VRWKV-Editor: Reducing quadratic complexity in transformer-based video editing
- arxiv url: http://arxiv.org/abs/2509.25998v2
- Date: Thu, 02 Oct 2025 11:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.159436
- Title: VRWKV-Editor: Reducing quadratic complexity in transformer-based video editing
- Title(参考訳): VRWKV-Editor:トランスフォーマーによるビデオ編集における2次的複雑さの低減
- Authors: Abdelilah Aitrouga, Youssef Hmamouche, Amal El Fallah Seghrouchni,
- Abstract要約: ビデオベース拡散モデルに線形時間アグリゲーションモジュールを統合する新しいビデオ編集モデルであるVRWKV-Editorを導入する。
VRWKV-Editorは、最先端の拡散ベースのビデオ編集方法と比較して最大3.7倍のスピードアップと60%のメモリ使用率を達成する。
- 参考スコア(独自算出の注目度): 0.13381749415517016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In light of recent progress in video editing, deep learning models focusing on both spatial and temporal dependencies have emerged as the primary method. However, these models suffer from the quadratic computational complexity of traditional attention mechanisms, making them difficult to adapt to long-duration and high-resolution videos. This limitation restricts their applicability in practical contexts such as real-time video processing. To tackle this challenge, we introduce a method to reduce both time and space complexity of these systems by proposing VRWKV-Editor, a novel video editing model that integrates a linear spatio-temporal aggregation module into video-based diffusion models. VRWKV-Editor leverages bidirectional weighted key-value recurrence mechanism of the RWKV transformer to capture global dependencies while preserving temporal coherence, achieving linear complexity without sacrificing quality. Extensive experiments demonstrate that the proposed method achieves up to 3.7x speedup and 60% lower memory usage compared to state-of-the-art diffusion-based video editing methods, while maintaining competitive performance in frame consistency and text alignment. Furthermore, a comparative analysis we conducted on videos with different sequence lengths confirms that the gap in editing speed between our approach and architectures with self-attention becomes more significant with long videos.
- Abstract(参考訳): 近年,映像編集の進歩に伴い,空間的・時間的依存に着目した深層学習モデルが主流となっている。
しかし、これらのモデルは従来の注意機構の2次計算複雑性に悩まされており、長期化と高解像度化に適応することが困難である。
この制限は、リアルタイムビデオ処理のような実践的な文脈における適用性を制限する。
この課題に対処するために、線形時空間アグリゲーションモジュールをビデオベース拡散モデルに統合する新しいビデオ編集モデルであるVRWKV-Editorを提案することにより、これらのシステムの時間と空間の複雑さを低減させる手法を提案する。
VRWKV-Editorは、RWKV変換器の双方向重み付きキー値再帰機構を利用して、時間的コヒーレンスを維持しながらグローバルな依存関係を捕捉し、品質を犠牲にすることなく線形複雑性を実現する。
提案手法は,フレームの整合性やテキストアライメントの競争性能を維持しつつ,最先端の拡散型ビデオ編集法と比較して最大3.7倍の高速化と60%のメモリ使用率を達成することを示した。
さらに、異なるシーケンス長の動画に対して行った比較分析により、長いビデオでは、我々のアプローチと自己注意によるアーキテクチャ間の編集速度の差がより重要になることを確認した。
関連論文リスト
- Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。