論文の概要: Context Guided Transformer Entropy Modeling for Video Compression
- arxiv url: http://arxiv.org/abs/2508.01852v1
- Date: Sun, 03 Aug 2025 17:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.089292
- Title: Context Guided Transformer Entropy Modeling for Video Compression
- Title(参考訳): 映像圧縮のためのコンテクストガイド変換器エントロピーモデル
- Authors: Junlong Tong, Wei Zhang, Yaohui Jin, Xiaoyu Shen,
- Abstract要約: 条件付きエントロピーモデルは、時間的・時間的複雑さを効果的に活用し、ビデオの冗長性を減少させる。
我々は,赤時間的コンテキストと依存性重み付き空間文脈を条件とした現在のフレームの確率質量関数を推定するコンテキスト案内変換器(CGT)エントロピーモデルを提案する。
実験結果から, CGTモデルではエントロピーのモデル化時間を約65%削減し, 従来の条件付きエントロピーモデルと比較して11%のBD-Rate削減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 15.374580218225576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional entropy models effectively leverage spatio-temporal contexts to reduce video redundancy. However, incorporating temporal context often introduces additional model complexity and increases computational cost. In parallel, many existing spatial context models lack explicit modeling the ordering of spatial dependencies, which may limit the availability of relevant context during decoding. To address these issues, we propose the Context Guided Transformer (CGT) entropy model, which estimates probability mass functions of the current frame conditioned on resampled temporal context and dependency-weighted spatial context. A temporal context resampler learns predefined latent queries to extract critical temporal information using transformer encoders, reducing downstream computational overhead. Meanwhile, a teacher-student network is designed as dependency-weighted spatial context assigner to explicitly model the dependency of spatial context order. The teacher generates an attention map to represent token importance and an entropy map to reflect prediction certainty from randomly masked inputs, guiding the student to select the weighted top-k tokens with the highest spatial dependency. During inference, only the student is used to predict undecoded tokens based on high-dependency context. Experimental results demonstrate that our CGT model reduces entropy modeling time by approximately 65% and achieves an 11% BD-Rate reduction compared to the previous state-of-the-art conditional entropy model.
- Abstract(参考訳): 条件付きエントロピーモデルは、時空間の文脈を効果的に利用し、ビデオの冗長性を減少させる。
しかし、時間的コンテキストを組み込むと、モデルが複雑になり、計算コストが増大する。
平行して、多くの既存の空間コンテキストモデルは、空間依存の順序付けを明示的なモデリングに欠いている。
これらの問題に対処するために,時間的コンテキストと依存性重み付き空間コンテキストに基づいて,現在のフレームの確率質量関数を推定するコンテキストガイド変換器(CGT)エントロピーモデルを提案する。
時間的コンテキストリサンプラーは、予め定義された潜時クエリを学習し、トランスフォーマーエンコーダを使用して臨界時情報を抽出し、下流の計算オーバーヘッドを低減する。
一方、教師-学生ネットワークは、空間的コンテキスト順序の依存関係を明示的にモデル化する依存性重み付き空間的コンテキスト割当器として設計されている。
教師は、トークンの重要性を表す注目マップと、ランダムにマスキングされた入力から予測確実性を反映するエントロピーマップを生成し、最も空間依存度の高い重み付きトップkトークンを選択するように指導する。
推論中は、高依存性コンテキストに基づいて非復号化トークンを予測するために、学生のみが使用される。
実験により, CGTモデルではエントロピーのモデル化時間を約65%短縮し, 従来の条件付きエントロピーモデルと比較して11%のBD-Rate削減を実現した。
関連論文リスト
- Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [55.09326865401653]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - ENMA: Tokenwise Autoregression for Generative Neural PDE Operators [12.314585849869797]
本稿では,物理現象から生じるダイナミクスをモデル化するための生成型ニューラルテンポラル演算子ENMAを紹介する。
ENMAは、フローマッチング損失を訓練した生成マスク付き自己回帰変換器を用いて、将来の動的圧縮潜在空間を予測する。
このフレームワークは、新しいPDEレジームに一般化され、時間依存パラメトリックPDEのワンショットサロゲートモデリングをサポートする。
論文 参考訳(メタデータ) (2025-06-06T15:25:14Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Reconstructing Spatiotemporal Data with C-VAEs [49.1574468325115]
移動領域の条件付き連続表現は一般的に用いられる。
本研究では,条件変数自動エンコーダ(C-VAE)モデルを用いて,領域の進化を現実的に表現する機能について検討する。
論文 参考訳(メタデータ) (2023-07-12T15:34:10Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Flow-based Spatio-Temporal Structured Prediction of Motion Dynamics [21.24885597341643]
条件付き流れ (CNF) は、高次元と相互相関を持つ複雑な分布を表現できるフレキシブルな生成モデルである。
本研究では,時間的入力特徴の出力を自己回帰的に正規化する新しい手法としてMotionFlowを提案する。
本稿では,予測,動き予測時系列予測,二分節分割などのタスクに本手法を適用した。
論文 参考訳(メタデータ) (2021-04-09T14:30:35Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。