論文の概要: Predicting total time to compress a video corpus using online inference systems
- arxiv url: http://arxiv.org/abs/2410.18260v1
- Date: Wed, 23 Oct 2024 20:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:29.273482
- Title: Predicting total time to compress a video corpus using online inference systems
- Title(参考訳): オンライン推論システムを用いたビデオコーパスの圧縮時間予測
- Authors: Xin Shu, Vibhoothi Vibhoothi, Anil Kokaram,
- Abstract要約: ビデオコーパスの集約時間予測の精度は、クリップごとの予測の2倍以上に向上した。
コーパスの各分数に対するビデオ計算オーバーヘッドとML予測器の適切な選択を考慮すると、5%未満の予測誤差が得られる。
- 参考スコア(独自算出の注目度): 2.172486053070161
- License:
- Abstract: Predicting the computational cost of compressing/transcoding clips in a video corpus is important for resource management of cloud services and VOD (Video On Demand) providers. Currently, customers of cloud video services are unaware of the cost of transcoding their files until the task is completed. Previous work concentrated on predicting perclip compression time, and thus estimating the cost of video compression. In this work, we propose new Machine Learning (ML) systems which predict cost for the entire corpus instead. This is a more appropriate goal since users are not interested in per-clip cost but instead the cost for the whole corpus. In this work, we evaluate our systems with respect to two video codecs (x264, x265) and a novel high-quality video corpus. We find that the accuracy of aggregate time prediction for a video corpus more than two times better than using per-clip predictions. Furthermore, we present an online inference framework in which we update the ML models as files are processed. A consideration of video compute overhead and appropriate choice of ML predictor for each fraction of corpus completed yields a prediction error of less than 5%. This is approximately two times better than previous work which proposed generalised predictors.
- Abstract(参考訳): ビデオコーパス内のクリップの圧縮/変換の計算コストを予測することは、クラウドサービスやVOD(Video On Demand)プロバイダのリソース管理において重要である。
現在、クラウドサービスの顧客は、タスクが完了するまでファイルを変換するコストを知らない。
それまでの作業は、パークリップ圧縮時間の予測に集中し、ビデオ圧縮のコストを見積もっていた。
本研究では,コーパス全体のコストを予測する機械学習(ML)システムを提案する。
これは、ユーザーがクリックあたりのコストではなく、コーパス全体のコストに関心がないため、より適切な目標である。
本研究では,2つのビデオコーデック(x264,x265)と,新しい高品質ビデオコーパスについて評価する。
その結果,ビデオコーパスの集約時間予測の精度は,クリップごとの予測よりも2倍以上高いことがわかった。
さらに,ファイル処理時にMLモデルを更新するオンライン推論フレームワークを提案する。
コーパスの各分数に対するビデオ計算オーバーヘッドとML予測器の適切な選択を考慮すると、5%未満の予測誤差が得られる。
これは、一般化予測器を提案する以前の研究の約2倍の精度である。
関連論文リスト
- Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Shortcut-V2V: Compression Framework for Video-to-Video Translation based
on Temporal Redundancy Reduction [32.87579824212654]
Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。
We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
論文 参考訳(メタデータ) (2023-08-15T19:50:38Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - Machine Learning Technique Predicting Video Streaming Views to Reduce
Cost of Cloud Services [0.0]
本稿では,ビデオの人気予測を利用してストレージコストを算出するアルゴリズムを提案する。
実験の結果、すべてのビデオストリームの保存と比較してクラウドサービスのコストが15%削減された。
論文 参考訳(メタデータ) (2022-10-17T13:28:26Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Rate distortion optimization over large scale video corpus with machine
learning [8.116858454428094]
本稿では,大規模ビデオコーパス上でのアロケーションを効率よく検出する手法を提案する。
提案手法は, コーパス内に動画をクラスタリングすることにより, ビデオがR-D特性に類似していることを示す。
論文 参考訳(メタデータ) (2020-08-27T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。