論文の概要: Leveraging Compression to Construct Transferable Bitrate Ladders
- arxiv url: http://arxiv.org/abs/2512.12952v1
- Date: Mon, 15 Dec 2025 03:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.523537
- Title: Leveraging Compression to Construct Transferable Bitrate Ladders
- Title(参考訳): 転写可能なビットレートラダー構築のための圧縮の活用
- Authors: Krishna Srikar Durbha, Hassene Tmar, Ping-Hao Wu, Ioannis Katsavounidis, Alan C. Bovik,
- Abstract要約: 圧縮ビデオのVMAFスコアを正確に予測する機械学習に基づく新しいはしご構築手法を提案する。
大規模ビデオコーパスにおける先行手法に対する提案手法の性能評価を行った。
- 参考スコア(独自算出の注目度): 25.158228645127036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, per-title and per-shot video encoding techniques have demonstrated significant gains as compared to conventional techniques such as constant CRF encoding and the fixed bitrate ladder. These techniques have demonstrated that constructing content-gnostic per-shot bitrate ladders can provide significant bitrate gains and improved Quality of Experience (QoE) for viewers under various network conditions. However, constructing a convex hull for every video incurs a significant computational overhead. Recently, machine learning-based bitrate ladder construction techniques have emerged as a substitute for convex hull construction. These methods operate by extracting features from source videos to train machine learning (ML) models to construct content-adaptive bitrate ladders. Here, we present a new ML-based bitrate ladder construction technique that accurately predicts the VMAF scores of compressed videos, by analyzing the compression procedure and by making perceptually relevant measurements on the source videos prior to compression. We evaluate the performance of our proposed framework against leading prior methods on a large corpus of videos. Since training ML models on every encoder setting is time-consuming, we also investigate how per-shot bitrate ladders perform under different encoding settings. We evaluate the performance of all models against the fixed bitrate ladder and the best possible convex hull constructed using exhaustive encoding with Bjontegaard-delta metrics.
- Abstract(参考訳): 近年では, 一定のCRFエンコーディングや固定ビットレート・ラグといった従来の手法と比較して, 字幕毎, ショット毎のビデオ符号化技術が顕著に向上している。
これらの技術は、撮影毎に非依存のビットレートはしごを構築することで、ビットレートの大幅な向上と、様々なネットワーク条件下での視聴者のクオリティ・オブ・エクスペリエンス(QoE)の向上を実証している。
しかし、ビデオ毎に凸船体を構築すると、計算上のオーバーヘッドが大幅に増大する。
近年, 凸船体構築の代用として, 機械学習に基づくビットレートラダー構築技術が出現している。
これらの手法は、ソースビデオから特徴を抽出して機械学習(ML)モデルを訓練し、コンテンツ適応ビットレートはしごを構築する。
本稿では,圧縮手順を解析し,圧縮前の映像に対して知覚的に関連性のある計測を行うことにより,圧縮ビデオのVMAFスコアを正確に予測するMLベースのビットレートラグ構築手法を提案する。
大規模ビデオコーパスにおける先行手法に対する提案手法の性能評価を行った。
エンコーダ設定毎にMLモデルをトレーニングするのに時間がかかるため、異なるエンコーダ設定下で、ショットごとのビットレートはしごがどのように機能するかについても検討する。
我々は,Bjontegaard-delta 測定値を用いた全モデルの固定ビットレート・ラグに対する性能と,全符号化による最良凸構造の評価を行った。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。