論文の概要: Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features
- arxiv url: http://arxiv.org/abs/2401.03195v2
- Date: Thu, 14 Mar 2024 03:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:52:29.026720
- Title: Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features
- Title(参考訳): 伝達学習と時空間特徴を用いた効率的なビットレートラダー構築
- Authors: Ali Falahati, Mohammad Karim Safavi, Ardavan Elahi, Farhad Pakdaman, Moncef Gabbouj,
- Abstract要約: 本稿では,移動・学習機能を用いた効率的なはしご予測手法を提案する。
102の動画シーンでのテストでは、94.1%の複雑さと1.71%のBD-Rateコストでブルートフォースを減少させる。
- 参考スコア(独自算出の注目度): 12.631821085716853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing high-quality video with efficient bitrate is a main challenge in video industry. The traditional one-size-fits-all scheme for bitrate ladders is inefficient and reaching the best content-aware decision computationally impractical due to extensive encodings required. To mitigate this, we propose a bitrate and complexity efficient bitrate ladder prediction method using transfer learning and spatio-temporal features. We propose: (1) using feature maps from well-known pre-trained DNNs to predict rate-quality behavior with limited training data; and (2) improving highest quality rung efficiency by predicting minimum bitrate for top quality and using it for the top rung. The method tested on 102 video scenes demonstrates 94.1% reduction in complexity versus brute-force at 1.71% BD-Rate expense. Additionally, transfer learning was thoroughly studied through four networks and ablation studies.
- Abstract(参考訳): 効率的なビットレートで高品質なビデオを提供することは、ビデオ産業にとって大きな課題だ。
従来のビットレート・ラダーのワンサイズ・オール・スキームは非効率であり、幅広いエンコーディングを必要とするため、最高のコンテント・アウェアの判断に到達できない。
これを軽減するために,転送学習と時空間特性を用いたビットレートおよび複雑性の高いビットレートラグ予測手法を提案する。
筆者らは,(1) 著名な訓練済みDNNの特徴マップを用いて,限られたトレーニングデータを用いて,レート品質の行動を予測すること,(2) 最高品質のビットレートを予測し,最上位のラングに使用することにより,最高品質のラング効率を向上させることを提案する。
102の動画シーンでのテストでは、94.1%の複雑さと1.71%のBD-Rateコストでブルートフォースを減少させる。
さらに、トランスファーラーニングは4つのネットワークとアブレーション研究を通じて徹底的に研究された。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Optimal Transcoding Resolution Prediction for Efficient Per-Title
Bitrate Ladder Estimation [9.332104035349932]
プリエンコーディングなしでコンテンツ最適化機能やはしごを効率的に決定できることを実証する。
Bjontegaard Delta rate loss of 1.21%。
論文 参考訳(メタデータ) (2024-01-09T08:01:47Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - AlphaVC: High-Performance and Efficient Learned Video Compression [4.807439168741098]
コンディションIフレームをGoPの第1フレームとして導入し、再構成された品質を安定させ、ビットレートを節約する。
第二に,デコーダの複雑さを増大させることなく相互予測の精度を向上させるために,エンコーダ側の画素間動作予測手法を提案する。
第3に,性能向上だけでなく,エントロピー符号化の実行時間を大幅に削減する確率ベースのエントロピースキップ手法を提案する。
論文 参考訳(メタデータ) (2022-07-29T13:52:44Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。