論文の概要: A Coding Framework and Benchmark towards Low-Bitrate Video Understanding
- arxiv url: http://arxiv.org/abs/2202.02813v3
- Date: Sun, 22 Sep 2024 09:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:46:48.581358
- Title: A Coding Framework and Benchmark towards Low-Bitrate Video Understanding
- Title(参考訳): 低ビットレート映像理解のための符号化フレームワークとベンチマーク
- Authors: Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao,
- Abstract要約: 我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
- 参考スコア(独自算出の注目度): 63.05385140193666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video compression is indispensable to most video analysis systems. Despite saving transportation bandwidth, it also deteriorates downstream video understanding tasks, especially at low-bitrate settings. To systematically investigate this problem, we first thoroughly review the previous methods, revealing that three principles, i.e., task-decoupled, label-free, and data-emerged semantic prior, are critical to a machine-friendly coding framework but are not fully satisfied so far. In this paper, we propose a traditional-neural mixed coding framework that simultaneously fulfills all these principles, by taking advantage of both traditional codecs and neural networks (NNs). On one hand, the traditional codecs can efficiently encode the pixel signal of videos but may distort the semantic information. On the other hand, highly non-linear NNs are proficient in condensing video semantics into a compact representation. The framework is optimized by ensuring that a transportation-efficient semantic representation of the video is preserved w.r.t. the coding procedure, which is spontaneously learned from unlabeled data in a self-supervised manner. The videos collaboratively decoded from two streams (codec and NN) are of rich semantics, as well as visually photo-realistic, empirically boosting several mainstream downstream video analysis task performances without any post-adaptation procedure. Furthermore, by introducing the attention mechanism and adaptive modeling scheme, the video semantic modeling ability of our approach is further enhanced. Finally, we build a low-bitrate video understanding benchmark with three downstream tasks on eight datasets, demonstrating the notable superiority of our approach. All codes, data, and models will be available at \url{https://github.com/tianyuan168326/VCS-Pytorch}.
- Abstract(参考訳): ビデオ圧縮は、ほとんどのビデオ分析システムにとって不可欠である。
転送帯域を節約しているにもかかわらず、特に低ビットレート設定では、下流のビデオ理解タスクも悪化する。
この問題を体系的に検討するために,我々はまず,従来の手法,すなわちタスク分離,ラベルなし,データエマージされたセマンティクスという3つの原則が,マシンフレンドリーなコーディングフレームワークにとって重要であるが,今のところ完全に満足していないことを明らかにした。
本稿では,従来のコーデックとニューラルネットワーク(NN)の両方を活用することによって,これらすべての原則を同時に満たす従来型ニューラル混合コーディングフレームワークを提案する。
一方、従来のコーデックはビデオのピクセル信号を効率的に符号化できるが、意味情報を歪ませることもある。
一方、高非線形NNは、ビデオセマンティクスをコンパクトな表現に凝縮するのに熟練している。
このフレームワークは、自己管理された方法でラベルのないデータから自発的に学習されるコーディング手順に、動画の移動効率のよい意味表現が保存されることを保証することで最適化される。
2つのストリーム(コーデックとNN)から共同でデコードされたビデオは、リッチなセマンティクスを持ち、視覚的に写真リアリスティックであり、いくつかの主流のダウンストリームビデオ分析タスクのパフォーマンスを、後処理なしで実証的に向上させる。
さらに,アテンション機構とアダプティブ・モデリング・スキームを導入することで,本手法の映像セマンティック・モデリング能力をさらに強化する。
最後に、8つのデータセット上の3つの下流タスクを備えた低ビットレートビデオ理解ベンチマークを構築し、我々のアプローチの顕著な優位性を実証した。
すべてのコード、データ、モデルは、 \url{https://github.com/tianyuan168326/VCS-Pytorch}で利用可能である。
関連論文リスト
- Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。
モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。
実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T07:03:11Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Learned Scalable Video Coding For Humans and Machines [4.14360329494344]
ベース層にエンド・ツー・エンドの学習可能なビデオタスクを導入し,その拡張層はベース層とともに人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。