論文の概要: Deep Video Codec Control for Vision Models
- arxiv url: http://arxiv.org/abs/2308.16215v6
- Date: Tue, 16 Apr 2024 13:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:09:49.231341
- Title: Deep Video Codec Control for Vision Models
- Title(参考訳): ビジョンモデルのためのディープビデオコーデック制御
- Authors: Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Daniel Cremers, Srimat Chakradhar,
- Abstract要約: 標準符号化ビデオはディープビジョンモデルの性能を著しく低下させることを示した。
本稿では、帯域制限と下流の深い視力性能の両方を考慮した、エンド・ツー・エンドの学習可能なDeep Video制御について述べる。
- 参考スコア(独自算出の注目度): 33.95098277668838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standardized lossy video coding is at the core of almost all real-world video processing pipelines. Rate control is used to enable standard codecs to adapt to different network bandwidth conditions or storage constraints. However, standard video codecs (e.g., H.264) and their rate control modules aim to minimize video distortion w.r.t. human quality assessment. We demonstrate empirically that standard-coded videos vastly deteriorate the performance of deep vision models. To overcome the deterioration of vision performance, this paper presents the first end-to-end learnable deep video codec control that considers both bandwidth constraints and downstream deep vision performance, while adhering to existing standardization. We demonstrate that our approach better preserves downstream deep vision performance than traditional standard video coding.
- Abstract(参考訳): 標準的なロッキーなビデオコーディングは、ほとんどすべての現実世界のビデオ処理パイプラインの中核にある。
レート制御は、標準コーデックが異なるネットワーク帯域幅条件やストレージ制約に適応できるようにするために使用される。
しかし、標準的なビデオコーデック(H.264など)とそのレート制御モジュールは、人間の品質評価におけるビデオ歪みを最小限にすることを目的としている。
我々は、標準符号化ビデオがディープビジョンモデルの性能を著しく低下させたことを実証的に実証した。
視力性能の劣化を克服するため,既存の標準化に固執しつつ,帯域制限と下流の視力性能の両方を考慮し,エンド・ツー・エンドで学習可能な深層ビデオコーデック制御を提案する。
提案手法は,従来のビデオ符号化よりも,下流の深い視力性能を向上することを示す。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - NU-Class Net: A Novel Approach for Video Quality Enhancement [1.7763979745248648]
本稿では,圧縮コーデックによる圧縮アーチファクトの軽減を目的とした,革新的な深層学習モデルであるNU-Class Netを紹介する。
NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低下させ、低ビットレートのビデオを生成することができる。
実験により,低ビットレートでストリーミングされたビデオの知覚品質を高めるためのモデルの有効性が確認された。
論文 参考訳(メタデータ) (2024-01-02T11:46:42Z) - Deep Learning-Based Real-Time Quality Control of Standard Video
Compression for Live Streaming [31.285983939625098]
リアルタイム深層学習に基づくH.264コントローラを提案する。
最小遅延でビデオチャンクの内容に基づいて最適なエンコーダパラメータを推定する。
平均帯域使用量の最大2.5倍の改善を実現している。
論文 参考訳(メタデータ) (2023-11-21T18:28:35Z) - Sandwiched Video Compression: Efficiently Extending the Reach of
Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。
ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。
HEVCと同等品質で30%の改善が見られた。
論文 参考訳(メタデータ) (2023-03-20T22:03:44Z) - Task Oriented Video Coding: A Survey [0.5076419064097732]
H.265/HEVCやVersatile Video Codingのような最先端のビデオコーディング標準は、圧縮されたビデオが人間によって監視されると仮定して設計されている。
コンピュータビジョンタスクの解法におけるディープニューラルネットワークの飛躍的な進歩と成熟により、人間の関与なしにディープニューラルネットワークによって直接分析されるビデオはますます増えている。
コンピュータビジョンタスク指向のビデオコーディングと新しいビデオコーディング標準である Video Coding for Machines の最近の進歩を探求し要約する。
論文 参考訳(メタデータ) (2022-08-15T16:21:54Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。