論文の概要: Video-Data Pipelines for Machine Learning Applications
- arxiv url: http://arxiv.org/abs/2110.11407v1
- Date: Fri, 15 Oct 2021 20:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 09:07:33.610954
- Title: Video-Data Pipelines for Machine Learning Applications
- Title(参考訳): 機械学習アプリケーションのためのビデオデータパイプライン
- Authors: Sohini Roychowdhury, James Y. Sato
- Abstract要約: 提案するフレームワークは、MLバージョニング用の追加のビデオシーケンスデータセットに拡張することができる。
本稿では,オブジェクト検出アルゴリズムのバージョニングと監視のためのビデオデータパイプラインの性能解析を行う。
- 参考スコア(独自算出の注目度): 0.9594432031144714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data pipelines are an essential component for end-to-end solutions that take
machine learning algorithms to production. Engineering data pipelines for
video-sequences poses several challenges including isolation of key-frames from
video sequences that are high quality and represent significant variations in
the scene. Manual isolation of such quality key-frames can take hours of
sifting through hours worth of video data. In this work, we present a data
pipeline framework that can automate this process of manual frame sifting in
video sequences by controlling the fraction of frames that can be removed based
on image quality and content type. Additionally, the frames that are retained
can be automatically tagged per sequence, thereby simplifying the process of
automated data retrieval for future ML model deployments. We analyze the
performance of the proposed video-data pipeline for versioned deployment and
monitoring for object detection algorithms that are trained on outdoor
autonomous driving video sequences. The proposed video-data pipeline can retain
anywhere between 0.1-20% of the all input frames that are representative of
high image quality and high variations in content. This frame selection,
automated scene tagging followed by model verification can be completed in
under 30 seconds for 22 video-sequences under analysis in this work. Thus, the
proposed framework can be scaled to additional video-sequence data sets for
automating ML versioned deployments.
- Abstract(参考訳): データパイプラインは、機械学習アルゴリズムを本番環境に持ち込むエンドツーエンドソリューションに不可欠なコンポーネントである。
ビデオシーケンスのためのエンジニアリングデータパイプラインは、高品質でシーンの大きなバリエーションを示すビデオシーケンスからキーフレームを分離するなど、いくつかの課題を引き起こす。
このような高品質なキーフレームを手動で隔離することは、何時間分ものビデオデータに何時間もかかります。
本研究では,映像の画質やコンテンツタイプに応じて削除可能なフレームの分数を制御し,映像列における手作業によるフレームシフティングのこのプロセスを自動化できるデータパイプラインフレームワークを提案する。
さらに、保持されるフレームはシーケンス毎に自動的にタグ付けされ、将来のMLモデルデプロイメントのための自動データ検索プロセスが簡単になる。
本研究では、自動走行ビデオシーケンスに基づいてトレーニングされたオブジェクト検出アルゴリズムのバージョニングおよび監視のためのビデオデータパイプラインの性能を分析する。
提案するビデオデータパイプラインは、高画質とコンテンツのばらつきを表す全ての入力フレームの0.1~20%以上を保持することができる。
このフレーム選択、自動シーンタグ付け、およびモデル検証は、解析対象の22の映像系列に対して30秒未満で完了する。
したがって、提案するフレームワークは、MLバージョンデプロイメントを自動化するための追加のビデオシーケンスデータセットにスケールすることができる。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - LAVIB: A Large-scale Video Interpolation Benchmark [58.194606275650095]
LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文 参考訳(メタデータ) (2024-06-14T06:44:01Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - Flexible Diffusion Modeling of Long Videos [15.220686350342385]
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。
本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。
さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
論文 参考訳(メタデータ) (2022-05-23T17:51:48Z) - Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification [1.2335698325757494]
本稿では,シーンのシーンを自動的に分類する半教師付きアプローチと,シーン理解タスクのためのフィルタフレームを提案する。
提案するフレームワークは、知覚駆動システムの自動トレーニングのために、追加のビデオデータストリームに拡張することができる。
論文 参考訳(メタデータ) (2022-03-25T05:45:18Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。