論文の概要: A Parametric Rate-Distortion Model for Video Transcoding
- arxiv url: http://arxiv.org/abs/2404.09029v1
- Date: Sat, 13 Apr 2024 15:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:34:10.181930
- Title: A Parametric Rate-Distortion Model for Video Transcoding
- Title(参考訳): ビデオ符号化のためのパラメトリックレート歪みモデル
- Authors: Maedeh Jamali, Nader Karimi, Shadrokh Samavi, Shahram Shirani,
- Abstract要約: パラメトリックレート歪み(R-D)トランスコーダモデルを提案する。
ビデオのエンコーディングを必要とせず,様々な速度で歪みを予測できるモデルを開発した。
トランスサイズにより視覚的品質改善(PSNR)を達成するために使用できる。
- 参考スコア(独自算出の注目度): 7.1741986121107235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past two decades, the surge in video streaming applications has been fueled by the increasing accessibility of the internet and the growing demand for network video. As users with varying internet speeds and devices seek high-quality video, transcoding becomes essential for service providers. In this paper, we introduce a parametric rate-distortion (R-D) transcoding model. Our model excels at predicting transcoding distortion at various rates without the need for encoding the video. This model serves as a versatile tool that can be used to achieve visual quality improvement (in terms of PSNR) via trans-sizing. Moreover, we use our model to identify visually lossless and near-zero-slope bitrate ranges for an ingest video. Having this information allows us to adjust the transcoding target bitrate while introducing visually negligible quality degradations. By utilizing our model in this manner, quality improvements up to 2 dB and bitrate savings of up to 46% of the original target bitrate are possible. Experimental results demonstrate the efficacy of our model in video transcoding rate distortion prediction.
- Abstract(参考訳): 過去20年間で、ビデオストリーミングアプリケーションの急増は、インターネットのアクセシビリティの増加と、ネットワークビデオの需要の増加によって加速されてきた。
さまざまなインターネット速度やデバイスを持つユーザが高品質なビデオを求める中、サービスプロバイダにとってトランスコーディングは不可欠である。
本稿では、パラメトリックレート歪み(R-D)変換モデルを提案する。
ビデオのエンコーディングを必要とせず,様々な速度で変換歪みを予測できるモデルを開発した。
このモデルは、トランスサイズ(trans-size)による視覚的品質改善(PSNR)を実現するために使用できる汎用ツールとして機能する。
さらに,このモデルを用いて,視覚的にロスレスかつゼロに近い速度のビットレート範囲を取り込みビデオとして同定する。
この情報を得ることで、視覚的に無視できる品質劣化を導入しながら、符号化対象ビットレートを調整できます。
このようにすることで、2dBまでの品質改善と、元のターゲットビットレートの最大46%のビットレート削減が可能となる。
ビデオ変換速度歪み予測における本モデルの有効性を実験的に検証した。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Deep Learning-Based Real-Time Quality Control of Standard Video
Compression for Live Streaming [31.285983939625098]
リアルタイム深層学習に基づくH.264コントローラを提案する。
最小遅延でビデオチャンクの内容に基づいて最適なエンコーダパラメータを推定する。
平均帯域使用量の最大2.5倍の改善を実現している。
論文 参考訳(メタデータ) (2023-11-21T18:28:35Z) - Deep Learning-Based Real-Time Rate Control for Live Streaming on
Wireless Networks [31.285983939625098]
エンコーダパラメータのサブ最適選択は、帯域幅による映像品質の低下や、パケットロスによるアーティファクトの導入につながる可能性がある。
リアルタイム深層学習に基づくH.264コントローラが提案され、最適エンコーダパラメータをリアルタイムに無視可能な遅延で動的に推定する。
注目すべきは、PSNRの10-20dBの改善と、最先端の適応型ビデオストリーミングの再現を実現し、パケットのドロップレートを0.002まで下げることである。
論文 参考訳(メタデータ) (2023-09-27T17:53:35Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Instance-Adaptive Video Compression: Improving Neural Codecs by Training
on the Test Set [14.89208053104896]
本稿では,インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。
送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。
ネットワークサイズを70%削減しても,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-19T16:25:34Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。