論文の概要: SMC++: Masked Learning of Unsupervised Video Semantic Compression
- arxiv url: http://arxiv.org/abs/2406.04765v1
- Date: Fri, 7 Jun 2024 09:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:50:13.610845
- Title: SMC++: Masked Learning of Unsupervised Video Semantic Compression
- Title(参考訳): SMC++: 教師なしビデオセマンティック圧縮の仮面学習
- Authors: Yuan Tian, Guo Lu, Guangtao Zhai,
- Abstract要約: ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
- 参考スコア(独自算出の注目度): 54.62883091552163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most video compression methods focus on human visual perception, neglecting semantic preservation. This leads to severe semantic loss during the compression, hampering downstream video analysis tasks. In this paper, we propose a Masked Video Modeling (MVM)-powered compression framework that particularly preserves video semantics, by jointly mining and compressing the semantics in a self-supervised manner. While MVM is proficient at learning generalizable semantics through the masked patch prediction task, it may also encode non-semantic information like trivial textural details, wasting bitcost and bringing semantic noises. To suppress this, we explicitly regularize the non-semantic entropy of the compressed video in the MVM token space. The proposed framework is instantiated as a simple Semantic-Mining-then-Compression (SMC) model. Furthermore, we extend SMC as an advanced SMC++ model from several aspects. First, we equip it with a masked motion prediction objective, leading to better temporal semantic learning ability. Second, we introduce a Transformer-based compression module, to improve the semantic compression efficacy. Considering that directly mining the complex redundancy among heterogeneous features in different coding stages is non-trivial, we introduce a compact blueprint semantic representation to align these features into a similar form, fully unleashing the power of the Transformer-based compression module. Extensive results demonstrate the proposed SMC and SMC++ models show remarkable superiority over previous traditional, learnable, and perceptual quality-oriented video codecs, on three video analysis tasks and seven datasets. \textit{Codes and model are available at: \url{https://github.com/tianyuan168326/VideoSemanticCompression-Pytorch}.
- Abstract(参考訳): ほとんどのビデオ圧縮手法は、人間の視覚的知覚に焦点を合わせ、意味的保存を無視している。
これにより、圧縮中のセマンティックな損失が深刻になり、下流のビデオ解析タスクが妨げられる。
本稿では,映像セマンティクスを自己管理的にマイニング・圧縮することで,映像セマンティクスを特に保存するMasked Video Modeling(MVM)を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練しているが、自明なテクスチャの詳細やビットコストの浪費、セマンティクスノイズなどの非セマンティクス情報をエンコードすることもある。
これを抑制するために、圧縮されたビデオの非意味エントロピーをMVMトークン空間で明示的に正規化する。
提案するフレームワークは,単純なセマンティック・マイニング・ザ・圧縮(SMC)モデルとしてインスタンス化されている。
さらに,SMCを先進的なSMC++モデルとして,いくつかの側面から拡張する。
まず、マスクされた動き予測目標を具備し、時間的意味学習能力を向上させる。
第2に,意味的圧縮効率を改善するために,Transformerベースの圧縮モジュールを導入する。
異なる符号化段階における不均一な特徴間の複素冗長性を直接マイニングすることは自明なことを考えると、これらの特徴を類似した形式に整合させるコンパクトな青写真意味表現を導入し、Transformerベースの圧縮モジュールのパワーを完全に解放する。
提案したSMCおよびSMC++モデルは、3つのビデオ解析タスクと7つのデータセットにおいて、従来の、学習可能な、知覚的品質指向のビデオコーデックよりも顕著に優れていることを示す。
ul{https://github.com/tianyuan168326/VideoSemanticCompression-Pytorch}。
関連論文リスト
- Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression [54.62883091552163]
教師なしビデオセマンティック圧縮(UVSC)は近年注目を集めている。
VFM から既製のリッチなセマンティクスを吸収することで UVSC タスクを強化することを提案する。
圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために,VFM固有のプロンプトによって補完されるVFMの共有セマンティックアライメント層を導入する。
論文 参考訳(メタデータ) (2024-09-18T05:55:01Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution [36.48329560039897]
フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
論文 参考訳(メタデータ) (2023-12-13T01:16:50Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。