論文の概要: Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism
- arxiv url: http://arxiv.org/abs/2301.07565v1
- Date: Wed, 18 Jan 2023 14:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:43:04.834356
- Title: Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism
- Title(参考訳): Gated-ViGAT:新しいフレーム選択ポリシーとゲーティング機構を用いたボトムアップイベント認識と説明
- Authors: Nikolaos Gkalelis, Dimitrios Daskalakis, Vasileios Mezaris
- Abstract要約: Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
- 参考スコア(独自算出の注目度): 8.395400675921515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, Gated-ViGAT, an efficient approach for video event
recognition, utilizing bottom-up (object) information, a new frame sampling
policy and a gating mechanism is proposed. Specifically, the frame sampling
policy uses weighted in-degrees (WiDs), derived from the adjacency matrices of
graph attention networks (GATs), and a dissimilarity measure to select the most
salient and at the same time diverse frames representing the event in the
video. Additionally, the proposed gating mechanism fetches the selected frames
sequentially, and commits early-exiting when an adequately confident decision
is achieved. In this way, only a few frames are processed by the
computationally expensive branch of our network that is responsible for the
bottom-up information extraction. The experimental evaluation on two large,
publicly available video datasets (MiniKinetics, ActivityNet) demonstrates that
Gated-ViGAT provides a large computational complexity reduction in comparison
to our previous approach (ViGAT), while maintaining the excellent event
recognition and explainability performance. Gated-ViGAT source code is made
publicly available at https://github.com/bmezaris/Gated-ViGAT
- Abstract(参考訳): 本稿では,ボトムアップ(オブジェクト)情報,新しいフレームサンプリングポリシ,ゲーティング機構を利用した,映像イベント認識のための効率的な手法であるgated-vigatを提案する。
具体的には、グラフアテンションネットワーク(gats)の隣接行列(adjacency matrices)から派生した重み付きイングレード(wid)と、ビデオ中のイベントを表す最も有意義なフレームと、同時に多様なフレームを選択する異類似性尺度を用いる。
また、提案するゲーティング機構は、選択されたフレームを順次フェッチし、適切な確信度が得られた場合に早期にコミットする。
このように、ボトムアップ情報抽出に責任を負うネットワークの計算コストの高い分岐によって処理されるフレームはわずかである。
公開可能な2つの大規模ビデオデータセット(minikinetics, activitynet)の実験的評価により、gated-vigatは、優れたイベント認識と説明可能性性能を維持しつつ、以前のアプローチ(vigat)と比較して大きな計算複雑性の低減をもたらすことが示されている。
Gated-ViGATソースコードはhttps://github.com/bmezaris/Gated-ViGATで公開されている。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network [8.395400675921515]
ViGATは、オブジェクトとフレームの特徴を導出するための純粋アテンションボトムアップアプローチである。
ビデオにおけるイベント認識と説明のタスクのために,これらの特徴を処理するためのヘッドネットワークが提案されている。
提案手法が3つの大規模公開ビデオデータセットに対して最先端の結果を提供することを示す総合的な評価研究を行った。
論文 参考訳(メタデータ) (2022-07-20T14:12:05Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。