論文の概要: Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation
- arxiv url: http://arxiv.org/abs/2401.04405v1
- Date: Tue, 9 Jan 2024 08:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:18:11.479572
- Title: Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation
- Title(参考訳): 効率の良いビットレートラダー推定のための最適符号化分解能予測
- Authors: Jinhai Yang, Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang
- Abstract要約: プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
- 参考スコア(独自算出の注目度): 9.332104035349932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive video streaming requires efficient bitrate ladder construction to
meet heterogeneous network conditions and end-user demands. Per-title optimized
encoding typically traverses numerous encoding parameters to search the
Pareto-optimal operating points for each video. Recently, researchers have
attempted to predict the content-optimized bitrate ladder for pre-encoding
overhead reduction. However, existing methods commonly estimate the encoding
parameters on the Pareto front and still require subsequent pre-encodings. In
this paper, we propose to directly predict the optimal transcoding resolution
at each preset bitrate for efficient bitrate ladder construction. We adopt a
Temporal Attentive Gated Recurrent Network to capture spatial-temporal features
and predict transcoding resolutions as a multi-task classification problem. We
demonstrate that content-optimized bitrate ladders can thus be efficiently
determined without any pre-encoding. Our method well approximates the
ground-truth bitrate-resolution pairs with a slight Bj{\o}ntegaard Delta rate
loss of 1.21% and significantly outperforms the state-of-the-art fixed ladder.
- Abstract(参考訳): 適応型ビデオストリーミングは、異質なネットワーク条件とエンドユーザの要求を満たすために、効率的なビットレートラダーの構築を必要とする。
字幕ごとの最適化符号化は通常、パレート最適操作点を検索するために多数の符号化パラメータをトラバースする。
近年,プリエンコードオーバヘッド低減のために,コンテント最適化ビットレートラグの予測を試みた。
しかし、既存の手法ではパレートフロントの符号化パラメータを推定することが多い。
本稿では,各プリセットビットレートにおける最適変換分解能を直接予測し,効率的なビットレートラグ構築を提案する。
時空間-時間的特徴をキャプチャし,マルチタスク分類問題としてトランスコーディング解像度を予測するために,時空間注意ゲートリカレントネットワークを採用する。
本研究では,コンテンツ最適化ビットレートラダーを事前エンコーディングなしで効率的に決定できることを実証する。
提案手法は,Bj{\o}ntegaard Delta の損失率1.21%の基底トラスビットレート分解能対をよく近似し,最先端の固定ラグよりも大幅に向上する。
関連論文リスト
- Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features [12.631821085716853]
本稿では,移動・学習機能を用いた効率的なはしご予測手法を提案する。
102の動画シーンでのテストでは、94.1%の複雑さと1.71%のBD-Rateコストでブルートフォースを減少させる。
論文 参考訳(メタデータ) (2024-01-06T11:37:20Z) - Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion
Models [95.47438940934413]
UNetエンコーダの最初の包括的な研究を行う。
エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間経過によって大きく変化する。
伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - High-Quality Live Video Streaming via Transcoding Time Prediction and
Preset Selection [6.687072439993227]
そこで本稿では,様々なプリセットにまたがるビデオの時間を予測するための学習ベースのフレームワークを提案する。
我々のフレームワークは、平均絶対パーセンテージ誤差(MAPE)を約5.0%とすることで、異なるプリセットの時間を正確に予測することができる。
論文 参考訳(メタデータ) (2023-12-08T20:12:14Z) - Towards Real-Time Neural Video Codec for Cross-Platform Application
Using Calibration Information [17.141950680993617]
浮動小数点演算によるクロスプラットフォームの計算誤差は、ビットストリームの不正確な復号につながる可能性がある。
符号化と復号処理の計算複雑性が高いことは、リアルタイムのパフォーマンスを達成する上での課題である。
リアルタイムクロスプラットフォームのニューラルビデオは、コンシューマグレードのGPU上で、他のエンコーディングプラットフォームから720Pビデオのビットストリームを効率的に復号することができる。
論文 参考訳(メタデータ) (2023-09-20T13:01:15Z) - Dynamic Low-Rank Instance Adaptation for Universal Neural Image
Compression [33.92792778925365]
ドメイン外のデータセットで観測される速度歪みの減少に対処する低ランク適応手法を提案する。
提案手法は,多様な画像データセットにまたがる普遍性を示す。
論文 参考訳(メタデータ) (2023-08-15T12:17:46Z) - Efficient Per-Shot Convex Hull Prediction By Recurrent Learning [50.94452824380868]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
実験の結果,提案したモデルでは,最適凸殻の近似精度が向上し,既存の手法と比較して競争時間の節約が期待できることがわかった。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。