Fugu-MT 論文翻訳(概要): Perceptual Coding for Compressed Video Understanding: A New Framework and Benchmark

論文の概要: Perceptual Coding for Compressed Video Understanding: A New Framework and Benchmark

arxiv url: http://arxiv.org/abs/2202.02813v1
Date: Sun, 6 Feb 2022 16:29:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-08 17:26:45.321455
Title: Perceptual Coding for Compressed Video Understanding: A New Framework and Benchmark
Title（参考訳）: 圧縮ビデオ理解のための知覚コーディング:新しいフレームワークとベンチマーク
Authors: Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao
Abstract要約: 本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
参考スコア（独自算出の注目度）: 57.23523738351178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most video understanding methods are learned on high-quality videos. However, in most real-world scenarios, the videos are first compressed before the transportation and then decompressed for understanding. The decompressed videos are degraded in terms of perceptual quality, which may degenerate the downstream tasks. To address this issue, we propose the first coding framework for compressed video understanding, where another learnable perceptual bitstream is introduced and simultaneously transported with the video bitstream. With the sophisticatedly designed optimization target and network architectures, this new stream largely boosts the perceptual quality of the decoded videos yet with a small bit cost. Our framework can enjoy the best of both two worlds, (1) highly efficient content-coding of industrial video codec and (2) flexible perceptual-coding of neural networks (NNs). Finally, we build a rigorous benchmark for compressed video understanding over four different compression levels, six large-scale datasets, and two popular tasks. The proposed Dual-bitstream Perceptual Video Coding framework Dual-PVC consistently demonstrates significantly stronger performances than the baseline codec under the same bitrate level.
Abstract（参考訳）: ほとんどのビデオ理解方法は高品質のビデオで学習される。しかし、現実世界のほとんどのシナリオでは、ビデオは最初に輸送前に圧縮され、理解するために圧縮される。圧縮されたビデオは知覚品質で劣化し、下流のタスクは劣化する可能性がある。この問題に対処するために、ビデオ理解のための最初のコーディングフレームワークを提案し、別の学習可能な知覚ビットストリームを導入し、同時にビデオビットストリームで転送する。高度に設計された最適化ターゲットとネットワークアーキテクチャにより、この新しいストリームはデコードされたビデオの知覚的品質を大幅に向上し、わずかなコストがかかる。本フレームワークは,(1)産業用ビデオコーデックの高効率なコンテントコーディング,(2)ニューラルネットワーク(NN)のフレキシブルなパーセプチュアルコーディングという2つの世界の長所を享受することができる。最後に、4つの異なる圧縮レベル、6つの大規模データセット、および2つの一般的なタスクに対する圧縮ビデオ理解のための厳密なベンチマークを構築した。提案したDual-bitstream Perceptual Video CodingフレームワークであるDual-PVCは、同じビットレートレベルでベースラインコーデックよりも大幅にパフォーマンスが向上している。

関連論文リスト

BiVM: Accurate Binarized Neural Network for Efficient Video Matting [56.000594826508504]
リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。 BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
論文参考訳（メタデータ） (2025-07-06T16:32:37Z)
Coding-Prior Guided Diffusion Network for Video Deblurring [47.77918791133459]
本稿では,コーディング先行と生成拡散先行の両方を有効活用して,高品質なデブロアリングを実現する新しいフレームワークを提案する。実験では, IQA測定値の最大30%の改善により, 最先端の知覚品質が得られることを示した。
論文参考訳（メタデータ） (2025-04-16T16:14:43Z)
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-24T18:59:56Z)
Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文参考訳（メタデータ） (2024-11-26T07:03:11Z)
High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文参考訳（メタデータ） (2024-10-03T15:40:58Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Learned Scalable Video Coding For Humans and Machines [4.14360329494344]
ベース層にエンド・ツー・エンドの学習可能なビデオタスクを導入し,その拡張層はベース層とともに人間の視聴のための入力再構成をサポートする。我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文参考訳（メタデータ） (2023-07-18T05:22:25Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文参考訳（メタデータ） (2022-11-21T06:48:14Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。