論文の概要: ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network
- arxiv url: http://arxiv.org/abs/2207.09927v1
- Date: Wed, 20 Jul 2022 14:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:38:30.744069
- Title: ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network
- Title(参考訳): ViGAT:因子化グラフアテンションネットワークを用いたビデオにおけるボトムアップイベント認識と説明
- Authors: Nikolaos Gkalelis, Dimitrios Daskalakis, Vasileios Mezaris
- Abstract要約: ViGATは、オブジェクトとフレームの特徴を導出するための純粋アテンションボトムアップアプローチである。
ビデオにおけるイベント認識と説明のタスクのために,これらの特徴を処理するためのヘッドネットワークが提案されている。
提案手法が3つの大規模公開ビデオデータセットに対して最先端の結果を提供することを示す総合的な評価研究を行った。
- 参考スコア(独自算出の注目度): 8.395400675921515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper a pure-attention bottom-up approach, called ViGAT, that
utilizes an object detector together with a Vision Transformer (ViT) backbone
network to derive object and frame features, and a head network to process
these features for the task of event recognition and explanation in video, is
proposed. The ViGAT head consists of graph attention network (GAT) blocks
factorized along the spatial and temporal dimensions in order to capture
effectively both local and long-term dependencies between objects or frames.
Moreover, using the weighted in-degrees (WiDs) derived from the adjacency
matrices at the various GAT blocks, we show that the proposed architecture can
identify the most salient objects and frames that explain the decision of the
network. A comprehensive evaluation study is performed, demonstrating that the
proposed approach provides state-of-the-art results on three large, publicly
available video datasets (FCVID, Mini-Kinetics, ActivityNet).
- Abstract(参考訳): 本稿では、視覚変換器(ViT)のバックボーンネットワークとともにオブジェクト検出器を用いてオブジェクトとフレームの特徴を導出するViGATと呼ばれる純アテンションボトムアップ手法と、これらの特徴をビデオにおけるイベント認識と説明のタスクのために処理するヘッドネットワークを提案する。
ViGATヘッドは、オブジェクトやフレーム間の局所的および長期的依存関係を効果的に捉えるために、空間的および時間的次元に沿って分解されたグラフアテンションネットワーク(GAT)ブロックで構成されている。
さらに, 各種GATブロックの隣接行列から導出される重み付きインディグリー(WiD)を用いて, 提案アーキテクチャは, ネットワークの決定を説明する最も健全なオブジェクトやフレームを識別可能であることを示す。
提案手法が3つの大規模公開ビデオデータセット(FCVID, Mini-Kinetics, ActivityNet)に最先端の結果を提供することを示す総合的な評価研究を行った。
関連論文リスト
- Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文 参考訳(メタデータ) (2023-01-18T14:36:22Z) - Network Comparison Study of Deep Activation Feature Discriminability
with Novel Objects [0.5076419064097732]
最先端のコンピュータビジョンアルゴリズムは、Deep Neural Networks(DNN)を特徴抽出に取り入れ、Deep Convolutional Activation Features(DeCAF)を作成する。
本研究では、6つの主要な視覚認識DNNアーキテクチャのDeCAF空間に符号化された新しい物体の視覚的外観の一般的な識別可能性について分析する。
論文 参考訳(メタデータ) (2022-02-08T07:40:53Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Learning Discriminative Feature with CRF for Unsupervised Video Object
Segmentation [34.1031534327244]
本稿では,非教師付きビデオオブジェクトセグメンテーションタスクに対処するために,識別機能ネットワーク(DFNet)を導入する。
DFNetは最先端の手法を大差で上回り、平均IoUスコアは83.4%である。
DFNetはイメージオブジェクトのコセグメンテーションタスクにも適用されます。
論文 参考訳(メタデータ) (2020-08-04T01:53:56Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。