論文の概要: Quality-Constant Per-Shot Encoding by Two-Pass Learning-based Rate
Factor Prediction
- arxiv url: http://arxiv.org/abs/2208.10739v1
- Date: Tue, 23 Aug 2022 05:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:41:52.151027
- Title: Quality-Constant Per-Shot Encoding by Two-Pass Learning-based Rate
Factor Prediction
- Title(参考訳): 2パス学習に基づくレート係数予測による1ショットあたりの品質コンスタント符号化
- Authors: Chunlei Cai, Yi Wang, Xiaobo Li, Tianxiao Ye
- Abstract要約: 本稿では、レート係数(RF)を決定するための新しい深層学習に基づく2パスエンコーダパラメータ予測フレームワークを提案する。
提案手法は、圧縮されたビデオの実際のVMAFがターゲットVMAFの周囲のpm1$以内にあり、98.88%に達するのに対して、平均して1.55倍の複雑さの符号化しか必要としない。
- 参考スコア(独自算出の注目度): 9.31757979934513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing quality-constant streams can simultaneously guarantee user
experience and prevent wasting bit-rate. In this paper, we propose a novel deep
learning based two-pass encoder parameter prediction framework to decide rate
factor (RF), with which encoder can output streams with constant quality. For
each one-shot segment in a video, the proposed method firstly extracts spatial,
temporal and pre-coding features by an ultra fast pre-process. Based on these
features, a RF parameter is predicted by a deep neural network. Video encoder
uses the RF to compress segment as the first encoding pass. Then VMAF quality
of the first pass encoding is measured. If the quality doesn't meet target, a
second pass RF prediction and encoding will be performed. With the help of
first pass predicted RF and corresponding actual quality as feedback, the
second pass prediction will be highly accurate. Experiments show the proposed
method requires only 1.55 times encoding complexity on average, meanwhile the
accuracy, that the compressed video's actual VMAF is within $\pm1$ around the
target VMAF, reaches 98.88%.
- Abstract(参考訳): 品質の高いストリームを提供することで、ユーザエクスペリエンスを保証し、ビットレートの浪費を防ぐことができる。
本稿では,エンコーダが一定の品質でストリームを出力可能なレートファクタ(rf)を決定するための,深層学習に基づく2パスエンコーダパラメータ予測フレームワークを提案する。
ビデオ中の各ワンショットセグメントに対して,提案手法は,まず,超高速前処理により空間的,時間的,プリコーディング的特徴を抽出する。
これらの特徴に基づいて、RFパラメータはディープニューラルネットワークによって予測される。
ビデオエンコーダはRFを使用してセグメントを最初のエンコードパスとして圧縮する。
そして、第1パス符号化のVMAF品質を測定する。
品質が目標に合わなければ、第2のパスRF予測と符号化が行われる。
第1パス予測rfとそれに対応する実際の品質をフィードバックとして、第2パス予測は高精度である。
実験の結果、圧縮されたビデオの実際のVMAFがターゲットVMAFの周囲の$\pm1$以内にあり、98.88%に達するのに対して、提案手法は平均で1.55倍の複雑さを符号化する必要があった。
関連論文リスト
- Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Bit-flipping Decoder Failure Rate Estimation for (v,w)-regular Codes [84.0257274213152]
並列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。
本研究は,本症候群のモデル化およびシミュレーションによる重み比較,第1イテレーション終了時の誤りビット分布の誤検出,復号化復号化率(DFR)について検証した。
論文 参考訳(メタデータ) (2024-01-30T11:40:24Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - Neural Network based Inter bi-prediction Blending [8.815673539598816]
本稿では,ビデオ符号化におけるバイディディクションを改善するための学習的手法を提案する。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
テストが行われ、ネットワークサイズが10k未満のネットワークサイズに対して、ランダムアクセス構成でBDレートが-1.4%改善された。
論文 参考訳(メタデータ) (2022-01-26T13:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。