論文の概要: Efficient Per-Shot Convex Hull Prediction By Recurrent Learning
- arxiv url: http://arxiv.org/abs/2206.04877v1
- Date: Fri, 10 Jun 2022 05:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:18:28.927936
- Title: Efficient Per-Shot Convex Hull Prediction By Recurrent Learning
- Title(参考訳): リカレント学習による高効率単発対流船体予測
- Authors: Somdyuti Paul, Andrey Norkin and Alan C. Bovik
- Abstract要約: 本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
実験の結果,提案したモデルでは,最適凸殻の近似精度が向上し,既存の手法と比較して競争時間の節約が期待できることがわかった。
- 参考スコア(独自算出の注目度): 50.94452824380868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive video streaming relies on the construction of efficient bitrate
ladders to deliver the best possible visual quality to viewers under bandwidth
constraints. The traditional method of content dependent bitrate ladder
selection requires a video shot to be pre-encoded with multiple encoding
parameters to find the optimal operating points given by the convex hull of the
resulting rate-quality curves. However, this pre-encoding step is equivalent to
an exhaustive search process over the space of possible encoding parameters,
which causes significant overhead in terms of both computation and time
expenditure. To reduce this overhead, we propose a deep learning based method
of content aware convex hull prediction. We employ a recurrent convolutional
network (RCN) to implicitly analyze the spatiotemporal complexity of video
shots in order to predict their convex hulls. A two-step transfer learning
scheme is adopted to train our proposed RCN-Hull model, which ensures
sufficient content diversity to analyze scene complexity, while also making it
possible capture the scene statistics of pristine source videos. Our
experimental results reveal that our proposed model yields better
approximations of the optimal convex hulls, and offers competitive time savings
as compared to existing approaches. On average, the pre-encoding time was
reduced by 58.0% by our method, while the average Bjontegaard delta bitrate
(BD-rate) of the predicted convex hulls against ground truth was 0.08%, while
the mean absolute deviation of the BD-rate distribution was 0.44%
- Abstract(参考訳): アダプティブビデオストリーミングは、帯域幅制限下で視聴者に最高の視覚品質を提供するために、効率的なビットレートラダーの構築に依存している。
従来のコンテンツ依存ビットレートラダー選択法では、ビデオショットに複数の符号化パラメータをプリエンコードして、その結果のレート品質曲線の凸殻が与える最適な操作点を見つける必要がある。
しかし、このプリエンコーディングステップは、可能な符号化パラメータの空間上の徹底的な探索プロセスと等価であり、計算と時間支出の両面で大きなオーバーヘッドを引き起こす。
このオーバヘッドを低減するために,コンテンツ認識凸予測のディープラーニングに基づく手法を提案する。
recurrent convolutional network (rcn) を用いて映像の時空間的複雑度を暗黙的に解析し,凸包の予測を行った。
提案したRCN-Hullモデルに2段階の転送学習手法を適用し,シーンの複雑さを分析するのに十分な内容の多様性を確保できるとともに,プリスタンソースビデオのシーン統計をキャプチャすることを可能にする。
実験結果から,提案モデルが最適凸包の近似値が得られ,既存の手法と比較して競合時間の節約が期待できることがわかった。
平均エンコーディング時間は, 平均58.0%, 予測凸船体の平均BD-rateは0.08%, BD-rate分布の平均絶対偏差は0.44%であった。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Differentiable bit-rate estimation for neural-based video codec
enhancement [2.592974861902384]
ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。
NNトレーニングを最適にするためには、標準的なプロキシを、推定ビットレートと歪みのデリバティブを提供するプロキシに置き換える必要がある。
本稿では、エンド・ツー・エンドのニューラルコーデックのトレーニングで使用されるタイプに類似したビットレート推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T01:36:07Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。