論文の概要: Extract-Transform-Load for Video Streams
- arxiv url: http://arxiv.org/abs/2310.04830v1
- Date: Sat, 7 Oct 2023 14:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:16:42.442311
- Title: Extract-Transform-Load for Video Streams
- Title(参考訳): ビデオストリームの抽出変換ロード
- Authors: Ferdinand Kossmann, Ziniu Wu, Eugenie Lai, Nesime Tatbul, Lei Cao, Tim
Kraska, Samuel Madden
- Abstract要約: ソーシャルメディア、自動運転車、交通カメラは、ビデオストリームを大規模かつ安価に生成する。
ビデオの保存とクエリは 極めて高価です
我々は,大規模ビデオ分析をデータウェアハウス問題として扱うことを提案する。 ビデオは生成が容易だが,クエリが容易なアプリケーション固有のフォーマットに変換する必要がある。
- 参考スコア(独自算出の注目度): 43.56292052263243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media, self-driving cars, and traffic cameras produce video streams at
large scales and cheap cost. However, storing and querying video at such scales
is prohibitively expensive. We propose to treat large-scale video analytics as
a data warehousing problem: Video is a format that is easy to produce but needs
to be transformed into an application-specific format that is easy to query.
Analogously, we define the problem of Video Extract-Transform-Load (V-ETL).
V-ETL systems need to reduce the cost of running a user-defined V-ETL job while
also giving throughput guarantees to keep up with the rate at which data is
produced. We find that no current system sufficiently fulfills both needs and
therefore propose Skyscraper, a system tailored to V-ETL. Skyscraper can
execute arbitrary video ingestion pipelines and adaptively tunes them to reduce
cost at minimal or no quality degradation, e.g., by adjusting sampling rates
and resolutions to the ingested content. Skyscraper can hereby be provisioned
with cheap on-premises compute and uses a combination of buffering and cloud
bursting to deal with peaks in workload caused by expensive processing
configurations. In our experiments, we find that Skyscraper significantly
reduces the cost of V-ETL ingestion compared to adaptions of current SOTA
systems, while at the same time giving robustness guarantees that these systems
are lacking.
- Abstract(参考訳): ソーシャルメディア、自動運転車、交通カメラは、ビデオストリームを大規模かつ安価に生成する。
しかし、そのような規模での動画の保存とクエリは、非常に高価である。
我々は,大規模ビデオ分析をデータウェアハウス問題として扱うことを提案する。 ビデオは生成が容易だが,クエリが容易なアプリケーション固有のフォーマットに変換する必要がある。
同様に,ビデオ抽出変換ロード(v-etl)の問題を定義する。
V-ETLシステムは、ユーザが定義したV-ETLジョブを実行するコストを削減すると同時に、データが生成される速度に追従するスループットを保証する必要がある。
両ニーズを十分に満たすシステムは存在しないため,V-ETLに合わせたSkyscraperを提案する。
skyscraperは任意のビデオ取り込みパイプラインを実行し、コンテンツのサンプリングレートや解像度を調整することによって、品質の低下を最小限に抑えるように適応的に調整することができる。
そこでSkyscraperは、安価なオンプレミス計算でプロビジョニングでき、バッファリングとクラウドバーストを組み合わせて、高価な処理構成によるワークロードのピークに対応する。
実験では,現在のSOTAシステムと比較して,SkyscraperはV-ETLの摂取コストを大幅に削減すると同時に,これらのシステムが欠如していることを保証する。
関連論文リスト
- vid-TLDR: Training Free Token merging for Light-weight Video Transformer [14.143681665368856]
ビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる計算コストに悩まされる。
軽量ビデオ変換器(vid-TLDR)のための学習自由トークンマージを提案する。
背景トークンをドロップし,オブジェクトスコアをシャープにすることで,サリエンシを意識したトークンマージ戦略を導入する。
論文 参考訳(メタデータ) (2024-03-20T07:15:22Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。