論文の概要: Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression
- arxiv url: http://arxiv.org/abs/2409.11718v2
- Date: Sun, 22 Sep 2024 08:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-24 11:55:37.554116
- Title: Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression
- Title(参考訳): Free-VSC: 教師なしビデオセマンティック圧縮のためのVisual Foundation Modelsからのフリーセマンティック
- Authors: Yuan Tian, Guo Lu, Guangtao Zhai,
- Abstract要約: 教師なしビデオセマンティック圧縮(UVSC)は近年注目を集めている。
VFM から既製のリッチなセマンティクスを吸収することで UVSC タスクを強化することを提案する。
圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために,VFM固有のプロンプトによって補完されるVFMの共有セマンティックアライメント層を導入する。
- 参考スコア(独自算出の注目度): 54.62883091552163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video semantic compression (UVSC), i.e., compressing videos to better support various analysis tasks, has recently garnered attention. However, the semantic richness of previous methods remains limited, due to the single semantic learning objective, limited training data, etc. To address this, we propose to boost the UVSC task by absorbing the off-the-shelf rich semantics from VFMs. Specifically, we introduce a VFMs-shared semantic alignment layer, complemented by VFM-specific prompts, to flexibly align semantics between the compressed video and various VFMs. This allows different VFMs to collaboratively build a mutually-enhanced semantic space, guiding the learning of the compression model. Moreover, we introduce a dynamic trajectory-based inter-frame compression scheme, which first estimates the semantic trajectory based on the historical content, and then traverses along the trajectory to predict the future semantics as the coding context. This reduces the overall bitcost of the system, further improving the compression efficiency. Our approach outperforms previous coding methods on three mainstream tasks and six datasets.
- Abstract(参考訳): 教師なしビデオセマンティック圧縮(Unsupervised video semantic compression, UVSC)は、近年注目されている。
しかし,従来の手法のセマンティック・リッチネスは,単一のセマンティック・ラーニング目標,限られたトレーニングデータなどによって制限され続けている。
そこで本研究では,VFMから既製のリッチなセマンティクスを吸収することにより,UVSCタスクの強化を提案する。
具体的には、圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために、VFM固有のプロンプトを補完するVFM共有セマンティックアライメント層を導入する。
これにより、異なるVFMが相互に強化されたセマンティック空間を共同で構築し、圧縮モデルの学習を導くことができる。
さらに,動的トラジェクトリに基づくフレーム間圧縮方式を導入し,まず歴史的内容に基づいて意味的トラジェクトリを推定し,次にそのトラジェクトリに沿って進行して,将来的なセマンティクスを符号化コンテキストとして予測する。
これによりシステム全体のビットコストが削減され、圧縮効率が向上する。
提案手法は,3つのメインストリームタスクと6つのデータセットにおいて,従来のコーディング手法より優れている。
関連論文リスト
- M3-CVC: Controllable Video Compression with Multimodal Generative Models [17.49397141459785]
M3-CVCは、生成モデルを組み込んだ制御可能なビデオ圧縮フレームワークである。
以上の結果から,M3-CVCは超低シナリオにおいて最先端のVVCを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T11:56:59Z) - SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection [14.721615285883423]
本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。
この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。
論文 参考訳(メタデータ) (2023-03-23T05:53:34Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。