Fugu-MT 論文翻訳(概要): Extract-Transform-Load for Video Streams

論文の概要: Extract-Transform-Load for Video Streams

arxiv url: http://arxiv.org/abs/2310.04830v1
Date: Sat, 7 Oct 2023 14:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 15:16:42.442311
Title: Extract-Transform-Load for Video Streams
Title（参考訳）: ビデオストリームの抽出変換ロード
Authors: Ferdinand Kossmann, Ziniu Wu, Eugenie Lai, Nesime Tatbul, Lei Cao, Tim Kraska, Samuel Madden
Abstract要約: ソーシャルメディア、自動運転車、交通カメラは、ビデオストリームを大規模かつ安価に生成する。ビデオの保存とクエリは極めて高価です我々は,大規模ビデオ分析をデータウェアハウス問題として扱うことを提案する。ビデオは生成が容易だが,クエリが容易なアプリケーション固有のフォーマットに変換する必要がある。
参考スコア（独自算出の注目度）: 43.56292052263243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social media, self-driving cars, and traffic cameras produce video streams at large scales and cheap cost. However, storing and querying video at such scales is prohibitively expensive. We propose to treat large-scale video analytics as a data warehousing problem: Video is a format that is easy to produce but needs to be transformed into an application-specific format that is easy to query. Analogously, we define the problem of Video Extract-Transform-Load (V-ETL). V-ETL systems need to reduce the cost of running a user-defined V-ETL job while also giving throughput guarantees to keep up with the rate at which data is produced. We find that no current system sufficiently fulfills both needs and therefore propose Skyscraper, a system tailored to V-ETL. Skyscraper can execute arbitrary video ingestion pipelines and adaptively tunes them to reduce cost at minimal or no quality degradation, e.g., by adjusting sampling rates and resolutions to the ingested content. Skyscraper can hereby be provisioned with cheap on-premises compute and uses a combination of buffering and cloud bursting to deal with peaks in workload caused by expensive processing configurations. In our experiments, we find that Skyscraper significantly reduces the cost of V-ETL ingestion compared to adaptions of current SOTA systems, while at the same time giving robustness guarantees that these systems are lacking.
Abstract（参考訳）: ソーシャルメディア、自動運転車、交通カメラは、ビデオストリームを大規模かつ安価に生成する。しかし、そのような規模での動画の保存とクエリは、非常に高価である。我々は,大規模ビデオ分析をデータウェアハウス問題として扱うことを提案する。ビデオは生成が容易だが,クエリが容易なアプリケーション固有のフォーマットに変換する必要がある。同様に,ビデオ抽出変換ロード(v-etl)の問題を定義する。 V-ETLシステムは、ユーザが定義したV-ETLジョブを実行するコストを削減すると同時に、データが生成される速度に追従するスループットを保証する必要がある。両ニーズを十分に満たすシステムは存在しないため,V-ETLに合わせたSkyscraperを提案する。 skyscraperは任意のビデオ取り込みパイプラインを実行し、コンテンツのサンプリングレートや解像度を調整することによって、品質の低下を最小限に抑えるように適応的に調整することができる。そこでSkyscraperは、安価なオンプレミス計算でプロビジョニングでき、バッファリングとクラウドバーストを組み合わせて、高価な処理構成によるワークロードのピークに対応する。実験では,現在のSOTAシステムと比較して,SkyscraperはV-ETLの摂取コストを大幅に削減すると同時に,これらのシステムが欠如していることを保証する。

関連論文リスト

FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation [26.045123066151838]
SRDiffusionは、大小モデルの協調を利用して推論コストを削減する新しいフレームワークである。提案手法は,既存のアクセラレーション戦略の新たな方向性として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-25T13:58:52Z)
DVD-Quant: Data-free Video Diffusion Transformers Quantization [98.43940510241768]
Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
論文参考訳（メタデータ） (2025-05-24T11:56:02Z)
LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。 LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文参考訳（メタデータ） (2025-05-21T08:47:15Z)
LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文参考訳（メタデータ） (2025-03-18T14:58:59Z)
Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文参考訳（メタデータ） (2024-12-14T10:39:55Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文参考訳（メタデータ） (2024-10-03T17:36:49Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
vid-TLDR: Training Free Token merging for Light-weight Video Transformer [14.143681665368856]
ビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる計算コストに悩まされる。軽量ビデオ変換器(vid-TLDR)のための学習自由トークンマージを提案する。背景トークンをドロップし,オブジェクトスコアをシャープにすることで,サリエンシを意識したトークンマージ戦略を導入する。
論文参考訳（メタデータ） (2024-03-20T07:15:22Z)
Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文参考訳（メタデータ） (2023-12-01T08:38:27Z)
Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文参考訳（メタデータ） (2023-03-15T02:40:02Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文参考訳（メタデータ） (2021-07-24T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。