論文の概要: Video Content Classification using Deep Learning
- arxiv url: http://arxiv.org/abs/2111.13813v1
- Date: Sat, 27 Nov 2021 04:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 14:52:54.473491
- Title: Video Content Classification using Deep Learning
- Title(参考訳): ディープラーニングを用いた映像コンテンツ分類
- Authors: Pradyumn Patil, Vishwajeet Pawar, Yashraj Pawar and Shruti Pisal
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせたモデルを提案する。
モデルは、動画コンテンツの種類を特定し、それらを「アニメーション、ゲーム、自然コンテンツ、フラットコンテンツ」などのカテゴリに分類することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video content classification is an important research content in computer
vision, which is widely used in many fields, such as image and video retrieval,
computer vision. This paper presents a model that is a combination of
Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) which
develops, trains, and optimizes a deep learning network that can identify the
type of video content and classify them into categories such as "Animation,
Gaming, natural content, flat content, etc". To enhance the performance of the
model novel keyframe extraction method is included to classify only the
keyframes, thereby reducing the overall processing time without sacrificing any
significant performance.
- Abstract(参考訳): 映像コンテンツ分類はコンピュータビジョンにおいて重要な研究内容であり、画像やビデオ検索、コンピュータビジョンなど多くの分野で広く利用されている。
本稿では,コンボリューショナルニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて,映像コンテンツのタイプを特定し,それを「アニメーション,ゲーム,自然コンテンツ,フラットコンテンツ」などのカテゴリに分類する深層学習ネットワークを開発し,訓練し,最適化するモデルを提案する。
キーフレームのみを分類するために、新規なキーフレーム抽出方法の性能を高めるため、重要な性能を犠牲にすることなく、全体の処理時間を短縮する。
関連論文リスト
- Study of the effect of Sharpness on Blind Video Quality Assessment [0.0]
本研究では,BVQAのようなモデルに対するシャープネスの影響について検討する。
シャープネス(Sharpness)は、ビデオ画像の明快さと細部を測る尺度である。
本研究では,CVD2014などの既存の映像品質データベースを用いた。
論文 参考訳(メタデータ) (2024-04-06T16:10:48Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Video Contents Understanding using Deep Neural Networks [0.0]
複数のクラスにまたがるビデオフレームシーケンスを分類するトランスファーラーニングの新たな応用を提案する。
この表現は、ディープニューラルネットワーク(DNN)の出現によって達成される
論文 参考訳(メタデータ) (2020-04-29T05:18:40Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z) - Learning spatio-temporal representations with temporal squeeze pooling [11.746833714322154]
本研究では,ビデオフレームの長いシーケンスから本質的な動き情報を抽出し,それをSqueezed Imagesという名の少数の画像にマッピングする,テンポラル・スキーズ(TS)プーリングという新しいビデオ表現学習手法を提案する。
得られたSqueezed Imagesは、ビデオ分類タスクの最適化に対応して、ビデオフレームから必須の移動情報を含む。
2つのビデオ分類ベンチマークでアーキテクチャを評価し,その結果を最新技術と比較した。
論文 参考訳(メタデータ) (2020-02-11T21:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。