論文の概要: L-STEC: Learned Video Compression with Long-term Spatio-Temporal Enhanced Context
- arxiv url: http://arxiv.org/abs/2512.12790v1
- Date: Sun, 14 Dec 2025 18:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.439864
- Title: L-STEC: Learned Video Compression with Long-term Spatio-Temporal Enhanced Context
- Title(参考訳): L-STEC:長期的時空間強調による学習ビデオ圧縮
- Authors: Tiange Zhang, Zhimeng Huang, Xiandong Meng, Kai Zhang, Zhipin Deng, Siwei Ma,
- Abstract要約: 短い参照ウィンドウは、長期の依存関係と微妙なテクスチャの詳細を見逃します。
機能レベルの情報のみを伝搬することは、フレーム上のエラーを蓄積し、不正確さと微妙なテクスチャの喪失を引き起こす。
長期時空間拡張コンテキスト(L-STEC)法を提案する。
- 参考スコア(独自算出の注目度): 66.86946619574297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Video Compression has emerged in recent years, with condition-based frameworks outperforming traditional codecs. However, most existing methods rely solely on the previous frame's features to predict temporal context, leading to two critical issues. First, the short reference window misses long-term dependencies and fine texture details. Second, propagating only feature-level information accumulates errors over frames, causing prediction inaccuracies and loss of subtle textures. To address these, we propose the Long-term Spatio-Temporal Enhanced Context (L-STEC) method. We first extend the reference chain with LSTM to capture long-term dependencies. We then incorporate warped spatial context from the pixel domain, fusing spatio-temporal information through a multi-receptive field network to better preserve reference details. Experimental results show that L-STEC significantly improves compression by enriching contextual information, achieving 37.01% bitrate savings in PSNR and 31.65% in MS-SSIM compared to DCVC-TCM, outperforming both VTM-17.0 and DCVC-FM and establishing new state-of-the-art performance.
- Abstract(参考訳): ニューラルビデオ圧縮は近年出現し、条件ベースのフレームワークは従来のコーデックを上回っている。
しかし、既存のほとんどの手法は時間的文脈を予測するために前のフレームの特徴のみに依存しており、2つの重大な問題を引き起こしている。
まず、短い参照ウィンドウは長期的な依存関係と細かいテクスチャの詳細を見逃します。
第二に、特徴レベルの情報のみを伝播することは、フレーム上のエラーを蓄積し、予測の不正確さと微妙なテクスチャの喪失を引き起こす。
そこで本研究では,長期時空間拡張コンテキスト(L-STEC)法を提案する。
まず、LSTMで参照チェーンを拡張して、長期的な依存関係をキャプチャします。
次に、画素領域から乱れた空間コンテキストを取り込み、複数受容フィールドネットワークを介して時空間情報を融合することで、参照の詳細をよりよく保存する。
実験結果から,L-STECはPSNRの37.01%,MS-SSIMの31.65%を達成し,VTM-17.0とDCVC-FMの両性能を向上し,新たな最先端性能を確立した。
関連論文リスト
- Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Neural Video Compression with Context Modulation [9.875413481663742]
本稿では、時間的文脈を基準フレームで2段階に調整することで、制限に対処する。
従来の H.266/VVC よりも平均 22.7% の削減を実現し,従来の NVC DCVC-FM よりも平均 10.1% の削減を実現した。
論文 参考訳(メタデータ) (2025-05-20T15:57:09Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。