論文の概要: SCALED : Surrogate-gradient for Codec-Aware Learning of Downsampling in ABR Streaming
- arxiv url: http://arxiv.org/abs/2602.00198v1
- Date: Fri, 30 Jan 2026 10:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.048232
- Title: SCALED : Surrogate-gradient for Codec-Aware Learning of Downsampling in ABR Streaming
- Title(参考訳): SCALED : ABRストリーミングにおけるダウンサンプリングのコーデック認識学習のためのサロゲート勾配
- Authors: Esteban Pesnel, Julien Le Tanou, Michael Ropert, Thomas Maugey, Aline Roumy,
- Abstract要約: 現在、Over-the-Top (OTT)配信は、主にAdaptive Bitrate (ABR)ストリーミングに依存している。
ディープラーニングは、学習された再サンプリング手法を使用してABRパイプラインを共同最適化することへの関心を喚起している。
そこで本研究では,現実の非微分可能コーデックによるエンドツーエンドのトレーニングを可能にする新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.436544348188598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth in video consumption has introduced significant challenges to modern streaming architectures. Over-the-Top (OTT) video delivery now predominantly relies on Adaptive Bitrate (ABR) streaming, which dynamically adjusts bitrate and resolution based on client-side constraints such as display capabilities and network bandwidth. This pipeline typically involves downsampling the original high-resolution content, encoding and transmitting it, followed by decoding and upsampling on the client side. Traditionally, these processing stages have been optimized in isolation, leading to suboptimal end-to-end rate-distortion (R-D) performance. The advent of deep learning has spurred interest in jointly optimizing the ABR pipeline using learned resampling methods. However, training such systems end-to-end remains challenging due to the non-differentiable nature of standard video codecs, which obstructs gradient-based optimization. Recent works have addressed this issue using differentiable proxy models, based either on deep neural networks or hybrid coding schemes with differentiable components such as soft quantization, to approximate the codec behavior. While differentiable proxy codecs have enabled progress in compression-aware learning, they remain approximations that may not fully capture the behavior of standard, non-differentiable codecs. To our knowledge, there is no prior evidence demonstrating the inefficiencies of using standard codecs during training. In this work, we introduce a novel framework that enables end-to-end training with real, non-differentiable codecs by leveraging data-driven surrogate gradients derived from actual compression errors. It facilitates the alignment between training objectives and deployment performance. Experimental results show a 5.19\% improvement in BD-BR (PSNR) compared to codec-agnostic training approaches, consistently across the entire rate-distortion convex hull spanning multiple downsampling ratios.
- Abstract(参考訳): ビデオ消費の急速な増加は、現代のストリーミングアーキテクチャに重大な課題をもたらしている。
現在のOTT(Over-the-Top)ビデオ配信は、主にAdaptive Bitrate (ABR)ストリーミングに依存しており、ディスプレイ機能やネットワーク帯域幅といったクライアント側の制約に基づいてビットレートと解像度を動的に調整する。
このパイプラインは通常、元の高解像度コンテンツをダウンサンプリングし、エンコーディングと送信を行い、続いてデコーディングとクライアント側でのアップサンプリングを行う。
伝統的に、これらの処理段階は独立して最適化されており、最適化されたエンド・ツー・エンド・レート・ディストーション(R-D)のパフォーマンスをもたらす。
ディープラーニングの出現は、学習された再サンプリング手法を用いてABRパイプラインを共同最適化することへの関心を喚起した。
しかし、標準ビデオコーデックの非微分性により、勾配に基づく最適化を妨げているため、このようなシステムのエンドツーエンドのトレーニングは依然として困難である。
最近の研究は、ディープニューラルネットワークやソフト量子化などの異なるコンポーネントを持つハイブリッドコーディングスキームに基づいて、コーデックの振る舞いを近似するために、微分可能なプロキシモデルを使用してこの問題に対処している。
差別化可能なプロキシコーデックは圧縮認識学習の進歩を可能にしているが、標準的な非微分可能コーデックの振る舞いを完全に捉えない近似は保たれている。
我々の知る限り、トレーニング中に標準コーデックを使用することの非効率性を示す証拠は存在していない。
本研究では,実際の圧縮誤差から導かれるデータ駆動サロゲート勾配を利用して,実微分不可能なコーデックによるエンドツーエンドのトレーニングを可能にする新しいフレームワークを提案する。
トレーニング目標とデプロイメントパフォーマンスの整合性を促進する。
実験の結果, BD-BR (PSNR) はコーデックに依存しない訓練法と比較して5.19 %改善した。
関連論文リスト
- SCENE: Semantic-aware Codec Enhancement with Neural Embeddings [9.6489283335586]
本稿では,知覚の忠実度を高める意味認識型事前処理フレームワークを提案する。
本手法は,視覚言語モデルからのセマンティック埋め込みを効率的な畳み込みアーキテクチャに統合する。
この結果から, セマンティック・アウェア・プレプロセッサは, 圧縮ビデオストリームの強化に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T05:41:28Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Accelerating Learnt Video Codecs with Gradient Decay and Layer-wise
Distillation [17.980800481385195]
本稿では, 勾配減衰と適応層ワイド蒸留に基づく新しいモデル非依存プルーニング手法を提案する。
その結果,BD-PSNRでは最大65%のMACと2倍のスピードアップ,0.3dB未満のBD-PSNRが得られた。
論文 参考訳(メタデータ) (2023-12-05T09:26:09Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。