論文の概要: Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification
- arxiv url: http://arxiv.org/abs/2203.13459v1
- Date: Fri, 25 Mar 2022 05:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 22:02:10.011046
- Title: Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification
- Title(参考訳): 映像分類とキーフレーム識別のための半教師付き深層学習フレームワーク
- Authors: Sohini Roychowdhury
- Abstract要約: 本稿では,シーンのシーンを自動的に分類する半教師付きアプローチと,シーン理解タスクのためのフィルタフレームを提案する。
提案するフレームワークは、知覚駆動システムの自動トレーニングのために、追加のビデオデータストリームに拡張することができる。
- 参考スコア(独自算出の注目度): 1.2335698325757494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating video-based data and machine learning pipelines poses several
challenges including metadata generation for efficient storage and retrieval
and isolation of key-frames for scene understanding tasks. In this work, we
present two semi-supervised approaches that automate this process of manual
frame sifting in video streams by automatically classifying scenes for content
and filtering frames for fine-tuning scene understanding tasks. The first
rule-based method starts from a pre-trained object detector and it assigns
scene type, uncertainty and lighting categories to each frame based on
probability distributions of foreground objects. Next, frames with the highest
uncertainty and structural dissimilarity are isolated as key-frames. The second
method relies on the simCLR model for frame encoding followed by
label-spreading from 20% of frame samples to label the remaining frames for
scene and lighting categories. Also, clustering the video frames in the encoded
feature space further isolates key-frames at cluster boundaries. The proposed
methods achieve 64-93% accuracy for automated scene categorization for outdoor
image videos from public domain datasets of JAAD and KITTI. Also, less than 10%
of all input frames can be filtered as key-frames that can then be sent for
annotation and fine tuning of machine vision algorithms. Thus, the proposed
framework can be scaled to additional video data streams for automated training
of perception-driven systems with minimal training images.
- Abstract(参考訳): ビデオベースのデータと機械学習パイプラインの自動化は、効率的なストレージと検索のためのメタデータ生成や、シーン理解タスクのためのキーフレームの分離など、いくつかの課題をもたらす。
本研究では,コンテンツのシーンの自動分類と,シーン理解タスクの微調整を行うためのフィルタリングフレームを用いて,ビデオストリームにおける手作業によるフレームシフティングのプロセスを自動化する,2つの半教師付き手法を提案する。
最初のルールベースの手法は、事前訓練されたオブジェクト検出器から始まり、前景オブジェクトの確率分布に基づいてシーンタイプ、不確実性、照明カテゴリを各フレームに割り当てる。
次に、高い不確実性と構造的相違性を有するフレームをキーフレームとして分離する。
第2の方法は、フレームエンコーディングのためのsimCLRモデルに依存し、残りのフレームをシーンと照明のカテゴリにラベル付けるために20%のフレームサンプルからラベルスレッディングを行う。
また、エンコードされた特徴空間におけるビデオフレームのクラスタリングは、クラスタ境界におけるキーフレームをさらに分離する。
提案手法は,JAAD と KITTI のパブリックドメインデータセットから自動シーン分類のための64-93%の精度を実現する。
また、すべての入力フレームの10%未満をキーフレームとしてフィルタリングして、アノテーションやマシンビジョンアルゴリズムの微調整のために送信することができる。
これにより、最小限のトレーニング画像を持つ知覚駆動システムの自動トレーニングのために、提案するフレームワークをビデオデータストリームに追加することができる。
関連論文リスト
- Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Video-Data Pipelines for Machine Learning Applications [0.9594432031144714]
提案するフレームワークは、MLバージョニング用の追加のビデオシーケンスデータセットに拡張することができる。
本稿では,オブジェクト検出アルゴリズムのバージョニングと監視のためのビデオデータパイプラインの性能解析を行う。
論文 参考訳(メタデータ) (2021-10-15T20:28:56Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z) - HMM-guided frame querying for bandwidth-constrained video search [16.956238550063365]
遠隔サーバに格納されたビデオのフレームを,帯域幅制約下で検索するエージェントを設計する。
畳み込みニューラルネットワークを用いて、個々のフレームと隠れマルコフモデルを用いて、フレーム間の予測を伝達し、スパースで戦略的にサンプリングされたフレームに基づいて時間的関心領域を正確に同定する。
ImageNet-VIDデータセットのサブセットでは、フレームスコア間の補間に隠れマルコフモデルを用いることで、フレームの98%の要求を、フレーム・オブ・関心分類の精度を損なうことなく省略できることを示した。
論文 参考訳(メタデータ) (2019-12-31T19:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。