論文の概要: High-Quality Live Video Streaming via Transcoding Time Prediction and
Preset Selection
- arxiv url: http://arxiv.org/abs/2312.05348v1
- Date: Fri, 8 Dec 2023 20:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:21:06.767954
- Title: High-Quality Live Video Streaming via Transcoding Time Prediction and
Preset Selection
- Title(参考訳): トランスコーディング時間予測とプリセット選択による高品質ライブビデオストリーミング
- Authors: Zahra Nabizadeh Shahre-Babak, Nader Karimi, Krishna Rapaka, Tarek
Amara, Shadrokh Samavi, Shahram Shirani
- Abstract要約: そこで本稿では,様々なプリセットにまたがるビデオの時間を予測するための学習ベースのフレームワークを提案する。
我々のフレームワークは、平均絶対パーセンテージ誤差(MAPE)を約5.0%とすることで、異なるプリセットの時間を正確に予測することができる。
- 参考スコア(独自算出の注目度): 6.687072439993227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video streaming often requires transcoding content into different resolutions
and bitrates to match the recipient's internet speed and screen capabilities.
Video encoders like x264 offer various presets, each with different tradeoffs
between transcoding time and rate-distortion performance. Choosing the best
preset for video transcoding is difficult, especially for live streaming, as
trying all the presets and choosing the best one is not feasible. One solution
is to predict each preset's transcoding time and select the preset that ensures
the highest quality while adhering to live streaming time constraints.
Prediction of video transcoding time is also critical in minimizing streaming
delays, deploying resource management algorithms, and load balancing. We
propose a learning-based framework for predicting the transcoding time of
videos across various presets. Our predictor's features for video transcoding
time prediction are derived directly from the ingested stream, primarily from
the header or metadata. As a result, only minimal additional delay is incurred
for feature extraction, rendering our approach ideal for live-streaming
applications. We evaluated our learning-based transcoding time prediction using
a dataset of videos. The results demonstrate that our framework can accurately
predict the transcoding time for different presets, with a mean absolute
percentage error (MAPE) of nearly 5.0%. Leveraging these predictions, we then
select the most suitable transcoding preset for live video streaming. Utilizing
our transcoding time prediction-based preset selection improved Peak
Signal-to-Noise Ratio (PSNR) of up to 5 dB.
- Abstract(参考訳): ビデオストリーミングはしばしば、受信者のインターネット速度と画面能力に合うように、コンテンツを異なる解像度に変換しビットレートを必要とする。
x264のようなビデオエンコーダは様々なプリセットを提供しており、それぞれがトランスコーディング時間とレートディストリクト性能のトレードオフを持っている。
ビデオトランスコーディングに最適なプリセットを選択することは、特にライブストリーミングでは難しい。
1つの解決策は、各プリセットのトランスコーディング時間を予測し、ライブストリーミング時間の制約に固執しながら、最高の品質を保証するプリセットを選択することである。
ビデオトランスコーディング時間の予測は、ストリーミング遅延の最小化、リソース管理アルゴリズムのデプロイ、ロードバランシングにも重要である。
本稿では,各種プリセット間での動画のトランスコーディング時間を予測するための学習に基づくフレームワークを提案する。
ビデオトランスコーディング時間予測のための予測器の機能は主にヘッダやメタデータから取得したストリームから直接導き出します。
その結果、機能抽出には最小限の遅延しか発生せず、ライブストリーミングアプリケーションにとって理想的なアプローチです。
ビデオのデータセットを用いて学習に基づく符号化時間予測を評価した。
その結果,我々のフレームワークは,平均絶対パーセンテージ誤差(MAPE)を5.0%とすることで,異なるプリセットの変換時間を正確に予測できることがわかった。
これらの予測を活用して、ライブビデオストリーミングに最適なトランスコーディングプリセットを選択する。
符号化時間予測に基づくプリセット選択を利用して、ピーク信号対雑音比(PSNR)を最大5dBまで改善した。
関連論文リスト
- Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - A Parametric Rate-Distortion Model for Video Transcoding [7.1741986121107235]
パラメトリックレート歪み(R-D)トランスコーダモデルを提案する。
ビデオのエンコーディングを必要とせず,様々な速度で歪みを予測できるモデルを開発した。
トランスサイズにより視覚的品質改善(PSNR)を達成するために使用できる。
論文 参考訳(メタデータ) (2024-04-13T15:37:57Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - Deep Learning-Based Real-Time Quality Control of Standard Video
Compression for Live Streaming [31.285983939625098]
リアルタイム深層学習に基づくH.264コントローラを提案する。
最小遅延でビデオチャンクの内容に基づいて最適なエンコーダパラメータを推定する。
平均帯域使用量の最大2.5倍の改善を実現している。
論文 参考訳(メタデータ) (2023-11-21T18:28:35Z) - Deep Learning-Based Real-Time Rate Control for Live Streaming on
Wireless Networks [31.285983939625098]
エンコーダパラメータのサブ最適選択は、帯域幅による映像品質の低下や、パケットロスによるアーティファクトの導入につながる可能性がある。
リアルタイム深層学習に基づくH.264コントローラが提案され、最適エンコーダパラメータをリアルタイムに無視可能な遅延で動的に推定する。
注目すべきは、PSNRの10-20dBの改善と、最先端の適応型ビデオストリーミングの再現を実現し、パケットのドロップレートを0.002まで下げることである。
論文 参考訳(メタデータ) (2023-09-27T17:53:35Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Transcoded Video Restoration by Temporal Spatial Auxiliary Network [64.63157339057912]
本稿では,映像復元のための時間空間補助ネットワーク(TSAN)を提案する。
実験の結果,提案手法の性能は従来の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-15T08:10:23Z) - Optimizing Latency for Online Video CaptioningUsing Audio-Visual
Transformers [54.705393237822044]
本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。
オーディオ映像トランスフォーマーは、すべてのビデオフレームのごく一部だけを使用して、接地木字幕を生成するように訓練される。
CNNベースのタイミング検出器もトレーニングされ、適切な出力タイミングを検出し、2つのトランスフォーマーによって生成されたキャプションが十分に近接する。
論文 参考訳(メタデータ) (2021-08-04T16:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。