論文の概要: Key Frame Extraction with Attention Based Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2306.13176v1
- Date: Wed, 21 Jun 2023 15:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:26:27.876081
- Title: Key Frame Extraction with Attention Based Deep Neural Networks
- Title(参考訳): 注意に基づくディープニューラルネットワークによるキーフレーム抽出
- Authors: Samed Arslan, Senem Tanberk
- Abstract要約: 本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic keyframe detection from videos is an exercise in selecting scenes
that can best summarize the content for long videos. Providing a summary of the
video is an important task to facilitate quick browsing and content
summarization. The resulting photos are used for automated works (e.g.
summarizing security footage, detecting different scenes used in music clips)
in different industries. In addition, processing high-volume videos in advanced
machine learning methods also creates resource costs. Keyframes obtained; It
can be used as an input feature to the methods and models to be used. In this
study; We propose a deep learning-based approach for keyframe detection using a
deep auto-encoder model with an attention layer. The proposed method first
extracts the features from the video frames using the encoder part of the
autoencoder and applies segmentation using the k-means clustering algorithm to
group these features and similar frames together. Then, keyframes are selected
from each cluster by selecting the frames closest to the center of the
clusters. The method was evaluated on the TVSUM video dataset and achieved a
classification accuracy of 0.77, indicating a higher success rate than many
existing methods. The proposed method offers a promising solution for key frame
extraction in video analysis and can be applied to various applications such as
video summarization and video retrieval.
- Abstract(参考訳): ビデオからのキーフレームの自動検出は、長いビデオのコンテンツを最も要約できるシーンを選択するための運動である。
ビデオの要約を提供することは、迅速な閲覧とコンテンツの要約を容易にする重要なタスクである。
得られた写真は、様々な産業における自動作業(例えば、セキュリティ映像の要約、音楽クリップで使用される異なるシーンの検出など)に使用される。
さらに、高度な機械学習手法で高ボリュームビデオを処理することで、リソースコストも生じる。
キーフレームが取得されます。使用するメソッドやモデルの入力機能として使用することができます。
本研究では,注意層を有する深層オートエンコーダモデルを用いて,キーフレーム検出のためのディープラーニング手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部分を用いてビデオフレームから特徴を抽出し,k-meansクラスタリングアルゴリズムを用いたセグメンテーションを適用し,類似のフレームと特徴をグループ化する。
そして、各クラスタの中心に最も近いフレームを選択して、各クラスタからキーフレームを選択する。
この手法をTVSUMビデオデータセットで評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
提案手法は,映像解析におけるキーフレーム抽出のための有望な解であり,映像要約やビデオ検索などの様々な応用に適用できる。
関連論文リスト
- Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification [1.2335698325757494]
本稿では,シーンのシーンを自動的に分類する半教師付きアプローチと,シーン理解タスクのためのフィルタフレームを提案する。
提案するフレームワークは、知覚駆動システムの自動トレーニングのために、追加のビデオデータストリームに拡張することができる。
論文 参考訳(メタデータ) (2022-03-25T05:45:18Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Classifying Video based on Automatic Content Detection Overview [12.556159953684023]
マルチラベルビデオ分類のための最先端手法をいくつか要約した。
まず、現在広く使われているアーキテクチャを実験的に研究し、次にフレームのシーケンシャルデータを扱う方法を開発することを目的とする。
論文 参考訳(メタデータ) (2021-03-29T04:31:45Z) - Online Learnable Keyframe Extraction in Videos and its Application with
Semantic Word Vector in Action Recognition [5.849485167287474]
ビデオ中のキーショットを抽出するためのオンライン学習可能なモジュールを提案する。
このモジュールはビデオ内のキーショットを選択できるため、ビデオ要約にも適用できる。
また、セマンティックワードベクトルを入力として使用するプラグインモジュールと、分類モデルのための新しいトレイン/テスト戦略を提案する。
論文 参考訳(メタデータ) (2020-09-25T20:54:46Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。