論文の概要: CSTA: CNN-based Spatiotemporal Attention for Video Summarization
- arxiv url: http://arxiv.org/abs/2405.11905v2
- Date: Tue, 21 May 2024 07:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 15:26:53.238646
- Title: CSTA: CNN-based Spatiotemporal Attention for Video Summarization
- Title(参考訳): CSTA:ビデオ要約のためのCNNに基づく時空間アテンション
- Authors: Jaewon Son, Jaehun Park, Kwangsu Kim,
- Abstract要約: 本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization aims to generate a concise representation of a video, capturing its essential content and key moments while reducing its overall length. Although several methods employ attention mechanisms to handle long-term dependencies, they often fail to capture the visual significance inherent in frames. To address this limitation, we propose a CNN-based SpatioTemporal Attention (CSTA) method that stacks each feature of frames from a single video to form image-like frame representations and applies 2D CNN to these frame features. Our methodology relies on CNN to comprehend the inter and intra-frame relations and to find crucial attributes in videos by exploiting its ability to learn absolute positions within images. In contrast to previous work compromising efficiency by designing additional modules to focus on spatial importance, CSTA requires minimal computational overhead as it uses CNN as a sliding window. Extensive experiments on two benchmark datasets (SumMe and TVSum) demonstrate that our proposed approach achieves state-of-the-art performance with fewer MACs compared to previous methods. Codes are available at https://github.com/thswodnjs3/CSTA.
- Abstract(参考訳): ビデオ要約は、ビデオの簡潔な表現を生成し、本質的な内容とキーモーメントをキャプチャし、全体的な長さを短縮することを目的としている。
いくつかの手法では長期依存を扱うために注意機構を採用しているが、フレームに固有の視覚的意義を捉えるのに失敗することが多い。
この制限に対処するために,CNN ベースの SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
空間的重要性を重視した追加モジュールを設計することで、従来の作業の効率向上とは対照的に、CSTAでは、CNNをスライディングウィンドウとして使用するため、計算オーバーヘッドを最小限に抑える必要がある。
2つのベンチマークデータセット(SumMeとTVSum)の大規模な実験により,提案手法は従来の手法に比べてMACが少なく,最先端の性能を実現していることが示された。
コードはhttps://github.com/thswodnjs3/CSTAで公開されている。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Boggart: Accelerating Retrospective Video Analytics via Model-Agnostic
Ingest Processing [5.076419064097734]
Boggartは、モデルに依存しない方法で摂取時のスピードアップを提供する、振り返りビデオ分析システムである。
我々の根底にある洞察は、従来のコンピュータビジョン(CV)アルゴリズムは、幅広いCNNで多様なクエリを高速化するために使用できる計算を行うことができるということである。
クエリ時に、Boggart氏はいくつかの新しいテクニックを使用して、ターゲットの精度を満たすのに必要な最小のCNN結果のサンプルを収集している。
論文 参考訳(メタデータ) (2021-06-21T19:21:16Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。