論文の概要: Sliding Window Attention for Learned Video Compression
- arxiv url: http://arxiv.org/abs/2510.03926v1
- Date: Sat, 04 Oct 2025 20:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.346944
- Title: Sliding Window Attention for Learned Video Compression
- Title(参考訳): 学習映像圧縮のためのスライディングウィンドウアテンション
- Authors: Alexander Kopte, André Kaup,
- Abstract要約: 本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
- 参考スコア(独自算出の注目度): 67.57073402826292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To manage the complexity of transformers in video compression, local attention mechanisms are a practical necessity. The common approach of partitioning frames into patches, however, creates architectural flaws like irregular receptive fields. When adapted for temporal autoregressive models, this paradigm, exemplified by the Video Compression Transformer (VCT), also necessitates computationally redundant overlapping windows. This work introduces 3D Sliding Window Attention (SWA), a patchless form of local attention. By enabling a decoder-only architecture that unifies spatial and temporal context processing, and by providing a uniform receptive field, our method significantly improves rate-distortion performance, achieving Bj{\o}rntegaard Delta-rate savings of up to 18.6 % against the VCT baseline. Simultaneously, by eliminating the need for overlapping windows, our method reduces overall decoder complexity by a factor of 2.8, while its entropy model is nearly 3.5 times more efficient. We further analyze our model's behavior and show that while it benefits from long-range temporal context, excessive context can degrade performance.
- Abstract(参考訳): ビデオ圧縮における変圧器の複雑さを管理するためには,局所的な注意機構が不可欠である。
しかし、フレームをパッチに分割する一般的なアプローチは、不規則な受容フィールドのようなアーキテクチャ上の欠陥を生み出します。
時間的自己回帰モデルに適応する場合、このパラダイムはビデオ圧縮変換器(VCT)によって例示され、計算的に冗長なオーバーラップウインドウを必要とする。
本研究は3D Sliding Window Attention (SWA)を導入している。
空間的および時間的コンテキスト処理を統一するデコーダのみのアーキテクチャを実現し、均一な受容場を提供することで、Bj{\o}rntegaard Delta-rate の最大 18.6 % を VCT ベースラインに対して達成し、速度歪曲性能を著しく向上させる。
同時に、重なり合うウィンドウの必要性をなくすことで、エントロピーモデルは3.5倍の効率で、デコーダ全体の複雑さを2.8倍に削減する。
さらに、モデルの振る舞いを分析し、それが長期の時間的コンテキストの恩恵を受ける一方で、過剰なコンテキストはパフォーマンスを低下させる可能性があることを示す。
関連論文リスト
- Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [21.87891961960399]
Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。
単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-18T14:45:42Z) - STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing [35.50656689789427]
STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。
STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-06-28T12:36:19Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。