論文の概要: Efficient Per-Shot Convex Hull Prediction By Recurrent Learning
- arxiv url: http://arxiv.org/abs/2206.04877v1
- Date: Fri, 10 Jun 2022 05:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:18:28.927936
- Title: Efficient Per-Shot Convex Hull Prediction By Recurrent Learning
- Title(参考訳): リカレント学習による高効率単発対流船体予測
- Authors: Somdyuti Paul, Andrey Norkin and Alan C. Bovik
- Abstract要約: 本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
実験の結果,提案したモデルでは,最適凸殻の近似精度が向上し,既存の手法と比較して競争時間の節約が期待できることがわかった。
- 参考スコア(独自算出の注目度): 50.94452824380868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive video streaming relies on the construction of efficient bitrate
ladders to deliver the best possible visual quality to viewers under bandwidth
constraints. The traditional method of content dependent bitrate ladder
selection requires a video shot to be pre-encoded with multiple encoding
parameters to find the optimal operating points given by the convex hull of the
resulting rate-quality curves. However, this pre-encoding step is equivalent to
an exhaustive search process over the space of possible encoding parameters,
which causes significant overhead in terms of both computation and time
expenditure. To reduce this overhead, we propose a deep learning based method
of content aware convex hull prediction. We employ a recurrent convolutional
network (RCN) to implicitly analyze the spatiotemporal complexity of video
shots in order to predict their convex hulls. A two-step transfer learning
scheme is adopted to train our proposed RCN-Hull model, which ensures
sufficient content diversity to analyze scene complexity, while also making it
possible capture the scene statistics of pristine source videos. Our
experimental results reveal that our proposed model yields better
approximations of the optimal convex hulls, and offers competitive time savings
as compared to existing approaches. On average, the pre-encoding time was
reduced by 58.0% by our method, while the average Bjontegaard delta bitrate
(BD-rate) of the predicted convex hulls against ground truth was 0.08%, while
the mean absolute deviation of the BD-rate distribution was 0.44%
- Abstract(参考訳): アダプティブビデオストリーミングは、帯域幅制限下で視聴者に最高の視覚品質を提供するために、効率的なビットレートラダーの構築に依存している。
従来のコンテンツ依存ビットレートラダー選択法では、ビデオショットに複数の符号化パラメータをプリエンコードして、その結果のレート品質曲線の凸殻が与える最適な操作点を見つける必要がある。
しかし、このプリエンコーディングステップは、可能な符号化パラメータの空間上の徹底的な探索プロセスと等価であり、計算と時間支出の両面で大きなオーバーヘッドを引き起こす。
このオーバヘッドを低減するために,コンテンツ認識凸予測のディープラーニングに基づく手法を提案する。
recurrent convolutional network (rcn) を用いて映像の時空間的複雑度を暗黙的に解析し,凸包の予測を行った。
提案したRCN-Hullモデルに2段階の転送学習手法を適用し,シーンの複雑さを分析するのに十分な内容の多様性を確保できるとともに,プリスタンソースビデオのシーン統計をキャプチャすることを可能にする。
実験結果から,提案モデルが最適凸包の近似値が得られ,既存の手法と比較して競合時間の節約が期待できることがわかった。
平均エンコーディング時間は, 平均58.0%, 予測凸船体の平均BD-rateは0.08%, BD-rate分布の平均絶対偏差は0.44%であった。
関連論文リスト
- Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Differentiable bit-rate estimation for neural-based video codec
enhancement [2.592974861902384]
ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。
NNトレーニングを最適にするためには、標準的なプロキシを、推定ビットレートと歪みのデリバティブを提供するプロキシに置き換える必要がある。
本稿では、エンド・ツー・エンドのニューラルコーデックのトレーニングで使用されるタイプに類似したビットレート推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T01:36:07Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Distributed Sketching for Randomized Optimization: Exact
Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文 参考訳(メタデータ) (2022-03-18T05:49:13Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。