論文の概要: STAF: A Spatio-Temporal Attention Fusion Network for Few-shot Video
Classification
- arxiv url: http://arxiv.org/abs/2112.04585v1
- Date: Wed, 8 Dec 2021 20:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-11 00:14:29.377185
- Title: STAF: A Spatio-Temporal Attention Fusion Network for Few-shot Video
Classification
- Title(参考訳): STAF: 短いビデオ分類のための時空間注意融合ネットワーク
- Authors: Rex Liu, Huanle Zhang, Hamed Pirsiavash, Xin Liu
- Abstract要約: STAF(STAF)は、数発のビデオ分類のための時空間注意融合ネットワークである。
自己アテンションと相互アテンションネットワークを使って抽出した特徴を微調整する。
最先端の精度を大きなマージンで向上させる。
- 参考スコア(独自算出の注目度): 18.25082358520635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose STAF, a Spatio-Temporal Attention Fusion network for few-shot
video classification. STAF first extracts coarse-grained spatial and temporal
features of videos by applying a 3D Convolution Neural Networks embedding
network. It then fine-tunes the extracted features using self-attention and
cross-attention networks. Last, STAF applies a lightweight fusion network and a
nearest neighbor classifier to classify each query video. To evaluate STAF, we
conduct extensive experiments on three benchmarks (UCF101, HMDB51, and
Something-Something-V2). The experimental results show that STAF improves
state-of-the-art accuracy by a large margin, e.g., STAF increases the five-way
one-shot accuracy by 5.3% and 7.0% for UCF101 and HMDB51, respectively.
- Abstract(参考訳): 数ショットビデオ分類のための時空間注意融合ネットワークSTAFを提案する。
STAFは、まず3次元畳み込みニューラルネットワークの埋め込みネットワークを適用して、ビデオの粗い空間的特徴と時間的特徴を抽出する。
そして、自己アテンションと相互アテンションネットワークを使って抽出した特徴を微調整する。
最後に、STAFは、各クエリビデオの分類に軽量なフュージョンネットワークと近隣の分類器を適用している。
STAFを評価するために、我々は3つのベンチマーク(UCF101、HMDB51、Something-V2)で広範な実験を行った。
実験の結果、STAFは最先端の精度を大きなマージンで向上し、例えば、STAFはUCF101とHMDB51でそれぞれ5方向のワンショット精度を5.3%と7.0%向上させることがわかった。
関連論文リスト
- NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation [60.47114985993196]
NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。
我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object
Detection [21.573784416916546]
複数の前のフレームでLiDAR入力を拡張することで、よりリッチなセマンティック情報が得られる。
複数フレームのクラウド化された点雲は、動きのぼやけや不正確な点投影による正確な位置情報を損なう可能性がある。
マルチフレームで提供されるリッチなセマンティック情報を強化する機能融合戦略DynStaFを提案する。
論文 参考訳(メタデータ) (2023-05-24T15:00:01Z) - FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for
Visual Place Recognition by Fusing Frames and Events [4.266841662194981]
フレームとイベントを融合させることにより,VPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。
我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。
論文 参考訳(メタデータ) (2022-11-22T12:55:25Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Distilling Object Detectors via Decoupled Features [69.62967325617632]
より優れた学生検出器を学習するための,デカップリング機能(DeFeat)を用いた新しい蒸留アルゴリズムを提案する。
バックボーンの異なる様々な検出器を用いた実験により, 提案手法の破れが, 被写体検出の最先端蒸留法を上回ることができることを示した。
論文 参考訳(メタデータ) (2021-03-26T13:58:49Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。