論文の概要: Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark
- arxiv url: http://arxiv.org/abs/2202.02813v1
- Date: Sun, 6 Feb 2022 16:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:26:45.321455
- Title: Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark
- Title(参考訳): 圧縮ビデオ理解のための知覚コーディング:新しいフレームワークとベンチマーク
- Authors: Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao
- Abstract要約: 本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
- 参考スコア(独自算出の注目度): 57.23523738351178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most video understanding methods are learned on high-quality videos. However,
in most real-world scenarios, the videos are first compressed before the
transportation and then decompressed for understanding. The decompressed videos
are degraded in terms of perceptual quality, which may degenerate the
downstream tasks. To address this issue, we propose the first coding framework
for compressed video understanding, where another learnable perceptual
bitstream is introduced and simultaneously transported with the video
bitstream. With the sophisticatedly designed optimization target and network
architectures, this new stream largely boosts the perceptual quality of the
decoded videos yet with a small bit cost. Our framework can enjoy the best of
both two worlds, (1) highly efficient content-coding of industrial video codec
and (2) flexible perceptual-coding of neural networks (NNs). Finally, we build
a rigorous benchmark for compressed video understanding over four different
compression levels, six large-scale datasets, and two popular tasks. The
proposed Dual-bitstream Perceptual Video Coding framework Dual-PVC consistently
demonstrates significantly stronger performances than the baseline codec under
the same bitrate level.
- Abstract(参考訳): ほとんどのビデオ理解方法は高品質のビデオで学習される。
しかし、現実世界のほとんどのシナリオでは、ビデオは最初に輸送前に圧縮され、理解するために圧縮される。
圧縮されたビデオは知覚品質で劣化し、下流のタスクは劣化する可能性がある。
この問題に対処するために、ビデオ理解のための最初のコーディングフレームワークを提案し、別の学習可能な知覚ビットストリームを導入し、同時にビデオビットストリームで転送する。
高度に設計された最適化ターゲットとネットワークアーキテクチャにより、この新しいストリームはデコードされたビデオの知覚的品質を大幅に向上し、わずかなコストがかかる。
本フレームワークは,(1)産業用ビデオコーデックの高効率なコンテントコーディング,(2)ニューラルネットワーク(NN)のフレキシブルなパーセプチュアルコーディングという2つの世界の長所を享受することができる。
最後に、4つの異なる圧縮レベル、6つの大規模データセット、および2つの一般的なタスクに対する圧縮ビデオ理解のための厳密なベンチマークを構築した。
提案したDual-bitstream Perceptual Video CodingフレームワークであるDual-PVCは、同じビットレートレベルでベースラインコーデックよりも大幅にパフォーマンスが向上している。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。