論文の概要: Geometric Transformation-Embedded Mamba for Learned Video Compression
- arxiv url: http://arxiv.org/abs/2603.07912v1
- Date: Mon, 09 Mar 2026 03:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.391791
- Title: Geometric Transformation-Embedded Mamba for Learned Video Compression
- Title(参考訳): 学習ビデオ圧縮のための幾何学変換埋め込みマンバ
- Authors: Hao Wei, Yanhui Zhou, Chenyang Ge,
- Abstract要約: 直接変換戦略,すなわち非線形変換,量子化,エントロピー符号化に基づくビデオ圧縮フレームワークを提案する。
提案手法は,低ビットレート制約下での知覚的品質と時間的一貫性の観点から,最先端のビデオ圧縮手法より優れる。
- 参考スコア(独自算出の注目度): 5.89272315125701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although learned video compression methods have exhibited outstanding performance, most of them typically follow a hybrid coding paradigm that requires explicit motion estimation and compensation, resulting in a complex solution for video compression. In contrast, we introduce a streamlined yet effective video compression framework founded on a direct transform strategy, i.e., nonlinear transform, quantization, and entropy coding. We first develop a cascaded Mamba module (CMM) with different embedded geometric transformations to effectively explore both long-range spatial and temporal dependencies. To improve local spatial representation, we introduce a locality refinement feed-forward network (LRFFN) that incorporates a hybrid convolution block based on difference convolutions. We integrate the proposed CMM and LRFFN into the encoder and decoder of our compression framework. Moreover, we present a conditional channel-wise entropy model that effectively utilizes conditional temporal priors to accurately estimate the probability distributions of current latent features. Extensive experiments demonstrate that our method outperforms state-of-the-art video compression approaches in terms of perceptual quality and temporal consistency under low-bitrate constraints. Our source codes and models will be available at https://github.com/cshw2021/GTEM-LVC.
- Abstract(参考訳): 学習されたビデオ圧縮法は優れた性能を示してきたが、ほとんどの場合、明示的な動き推定と補償を必要とするハイブリッドな符号化パラダイムに従っており、結果としてビデオ圧縮の複雑な解が導かれる。
対照的に、非線形変換、量子化、エントロピー符号化といった直接変換戦略に基づいて、合理化された効果的なビデオ圧縮フレームワークを導入する。
まず,長距離空間依存と時間依存の両方を効果的に探索するために,異なる幾何学的変換を組み込んだカスケードマンバモジュール(CMM)を開発した。
局所空間表現を改善するために,差分畳み込みに基づくハイブリッド畳み込みブロックを組み込んだLRFFN(Locality refinement Feed-forward Network)を導入する。
提案するCMMとLRFFNを圧縮フレームワークのエンコーダおよびデコーダに統合する。
さらに,現在潜伏している特徴の確率分布を正確に推定するために,条件付き時間前処理を効果的に活用する条件付きチャネルワイドエントロピーモデルを提案する。
提案手法は,低ビットレート制約下での知覚的品質と時間的整合性の観点から,最先端のビデオ圧縮手法よりも優れていることを示す。
ソースコードとモデルはhttps://github.com/cshw2021/GTEM-LVC.orgで公開されます。
関連論文リスト
- Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。