論文の概要: Deep Unsupervised Key Frame Extraction for Efficient Video
Classification
- arxiv url: http://arxiv.org/abs/2211.06742v1
- Date: Sat, 12 Nov 2022 20:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:11:23.089707
- Title: Deep Unsupervised Key Frame Extraction for Efficient Video
Classification
- Title(参考訳): 効率的な映像分類のための深部教師なしキーフレーム抽出
- Authors: Hao Tang, Lei Ding, Songsong Wu, Bin Ren, Nicu Sebe, Paolo Rota
- Abstract要約: 本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
- 参考スコア(独自算出の注目度): 63.25852915237032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video processing and analysis have become an urgent task since a huge amount
of videos (e.g., Youtube, Hulu) are uploaded online every day. The extraction
of representative key frames from videos is very important in video processing
and analysis since it greatly reduces computing resources and time. Although
great progress has been made recently, large-scale video classification remains
an open problem, as the existing methods have not well balanced the performance
and efficiency simultaneously. To tackle this problem, this work presents an
unsupervised method to retrieve the key frames, which combines Convolutional
Neural Network (CNN) and Temporal Segment Density Peaks Clustering (TSDPC). The
proposed TSDPC is a generic and powerful framework and it has two advantages
compared with previous works, one is that it can calculate the number of key
frames automatically. The other is that it can preserve the temporal
information of the video. Thus it improves the efficiency of video
classification. Furthermore, a Long Short-Term Memory network (LSTM) is added
on the top of the CNN to further elevate the performance of classification.
Moreover, a weight fusion strategy of different input networks is presented to
boost the performance. By optimizing both video classification and key frame
extraction simultaneously, we achieve better classification performance and
higher efficiency. We evaluate our method on two popular datasets (i.e., HMDB51
and UCF101) and the experimental results consistently demonstrate that our
strategy achieves competitive performance and efficiency compared with the
state-of-the-art approaches.
- Abstract(参考訳): 大量のビデオ(YouTube、Huluなど)が毎日オンラインにアップロードされているため、ビデオ処理と分析が緊急課題となっている。
ビデオからの代表的なキーフレームの抽出は、コンピュータ資源や時間を大幅に削減するため、ビデオ処理や解析において非常に重要である。
近年は大きな進歩を遂げているが,既存の手法では性能と効率のバランスが取れていないため,大規模ビデオ分類は未解決のままである。
そこで本研究では,畳み込みニューラルネットワーク (cnn) とテンポラルセグメント密度ピーククラスタリング (tsdpc) を組み合わせた,キーフレームを教師なしで検索する手法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
もう一つは、ビデオの時間的情報を保存できることです。
これにより、ビデオ分類の効率が向上する。
さらに、cnnの上部にlong short-term memory network(lstm)を追加して分類性能をさらに向上させる。
さらに,様々な入力ネットワークの重み融合戦略が提案され,性能が向上した。
映像分類とキーフレーム抽出を同時に最適化することにより,より優れた分類性能と高効率を実現する。
提案手法を2つの一般的なデータセット(HMDB51とUCF101)上で評価し,提案手法が最先端のアプローチと比較して競争性能と効率性を達成することを示す。
関連論文リスト
- KeyVideoLLM: Towards Large-scale Video Keyframe Selection [38.39013577942218]
KeyVideoLLMは、ビデオLLMデータを効率的に管理するためのテキストフレーム類似性に基づく選択方法である。
データ圧縮速度は最大60.9倍に向上し、ディスクスペースの要求を大幅に低減する。
既存の選択方法と比較して、処理速度を最大200倍に向上させる。
論文 参考訳(メタデータ) (2024-07-03T13:41:44Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。