論文の概要: Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning
- arxiv url: http://arxiv.org/abs/2206.04877v2
- Date: Sat, 31 Aug 2024 18:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 23:16:54.105157
- Title: Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning
- Title(参考訳): 逐次学習による適応型ビデオストリーミングの凸ハル予測
- Authors: Somdyuti Paul, Andrey Norkin, Alan C. Bovik,
- Abstract要約: 本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
- 参考スコア(独自算出の注目度): 38.574550778712236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive video streaming relies on the construction of efficient bitrate ladders to deliver the best possible visual quality to viewers under bandwidth constraints. The traditional method of content dependent bitrate ladder selection requires a video shot to be pre-encoded with multiple encoding parameters to find the optimal operating points given by the convex hull of the resulting rate-quality curves. However, this pre-encoding step is equivalent to an exhaustive search process over the space of possible encoding parameters, which causes significant overhead in terms of both computation and time expenditure. To reduce this overhead, we propose a deep learning based method of content aware convex hull prediction. We employ a recurrent convolutional network (RCN) to implicitly analyze the spatiotemporal complexity of video shots in order to predict their convex hulls. A two-step transfer learning scheme is adopted to train our proposed RCN-Hull model, which ensures sufficient content diversity to analyze scene complexity, while also making it possible to capture the scene statistics of pristine source videos. Our experimental results reveal that our proposed model yields better approximations of the optimal convex hulls, and offers competitive time savings as compared to existing approaches. On average, the pre-encoding time was reduced by 53.8% by our method, while the average Bjontegaard delta bitrate (BD-rate) of the predicted convex hulls against ground truth was 0.26%, and the mean absolute deviation of the BD-rate distribution was 0.57%.
- Abstract(参考訳): 適応的なビデオストリーミングは、帯域制限下で視聴者に最高の視覚的品質を提供するために、効率的なビットレートはしごの構築に依存している。
従来のコンテンツ依存型ビットレートラダー選択法では、ビデオショットを複数の符号化パラメータでプリエンコードして、その結果のレート品質曲線の凸殻が与える最適な演算点を見つける必要がある。
しかし、このプリエンコーディングステップは、可能な符号化パラメータの空間上の徹底的な探索プロセスと等価であり、計算と時間支出の両面で大きなオーバーヘッドを引き起こす。
このオーバーヘッドを軽減するために,コンテンツ認識凸の船体予測のためのディープラーニングに基づく手法を提案する。
本研究では,再帰的畳み込みネットワーク(RCN)を用いて映像の時空間的複雑さを暗黙的に解析し,その凸殻を予測する。
提案したRCN-Hullモデルでは,シーンの複雑さを分析するのに十分な内容の多様性を確保できると同時に,プリスタンソースビデオのシーン統計をキャプチャできる2段階の転送学習方式が採用されている。
実験結果から, 提案モデルにより, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争的な時間を節約できることが判明した。
プレエンコーディング時間の平均は, 平均53.8%, 予測凸殻のBD-rateは0.26%, BD-rate分布の平均絶対偏差は0.57%であった。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Differentiable bit-rate estimation for neural-based video codec
enhancement [2.592974861902384]
ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。
NNトレーニングを最適にするためには、標準的なプロキシを、推定ビットレートと歪みのデリバティブを提供するプロキシに置き換える必要がある。
本稿では、エンド・ツー・エンドのニューラルコーデックのトレーニングで使用されるタイプに類似したビットレート推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T01:36:07Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。