論文の概要: On the Importance of Spatial Relations for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2308.07119v1
- Date: Mon, 14 Aug 2023 12:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:18:04.042515
- Title: On the Importance of Spatial Relations for Few-shot Action Recognition
- Title(参考訳): ファウショット行動認識における空間関係の重要性について
- Authors: Yilun Zhang, Yuqian Fu, Xingjun Ma, Lizhe Qi, Jingjing Chen, Zuxuan
Wu, Yu-Gang Jiang
- Abstract要約: 本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
- 参考スコア(独自算出の注目度): 109.2312001355221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved great success in video recognition, yet still
struggles to recognize novel actions when faced with only a few examples. To
tackle this challenge, few-shot action recognition methods have been proposed
to transfer knowledge from a source dataset to a novel target dataset with only
one or a few labeled videos. However, existing methods mainly focus on modeling
the temporal relations between the query and support videos while ignoring the
spatial relations. In this paper, we find that the spatial misalignment between
objects also occurs in videos, notably more common than the temporal
inconsistency. We are thus motivated to investigate the importance of spatial
relations and propose a more accurate few-shot action recognition method that
leverages both spatial and temporal information. Particularly, a novel Spatial
Alignment Cross Transformer (SA-CT) which learns to re-adjust the spatial
relations and incorporates the temporal information is contributed. Experiments
reveal that, even without using any temporal information, the performance of
SA-CT is comparable to temporal based methods on 3/4 benchmarks. To further
incorporate the temporal information, we propose a simple yet effective
Temporal Mixer module. The Temporal Mixer enhances the video representation and
improves the performance of the full SA-CT model, achieving very competitive
results. In this work, we also exploit large-scale pretrained models for
few-shot action recognition, providing useful insights for this research
direction.
- Abstract(参考訳): 深層学習はビデオ認識において大きな成功を収めてきたが、いくつかの例に直面すると新しい行動を認識するのに苦戦している。
この課題に対処するために、ソースデータセットから新しいターゲットデータセットへの知識を1つまたは数個のラベル付きビデオで転送する、数発のアクション認識手法が提案されている。
しかし,既存の手法では,クエリとサポートビデオ間の時間的関係のモデル化に主眼を置きながら,空間的関係を無視している。
本稿では,映像における物体間の空間的不整合も,時間的不整合よりも一般的であることを示す。
そこで我々は,空間的関係の重要性を調査し,空間的情報と時間的情報の両方を活用したより高精度な行動認識手法を提案する。
特に、空間的関係を再調整し、時間的情報を組み込んだ新しい空間的アライメントクロストランス(sa-ct)が寄与する。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
さらに, 時間情報を取り込むため, 簡易かつ効果的な時間混合モジュールを提案する。
テンポラリミキサーはビデオ表現を強化し、完全なsa-ctモデルの性能を改善し、非常に競争的な結果を得る。
本研究では, 大規模事前学習モデルを用いて, 数発のアクション認識を行い, この研究の方向性に有用な知見を提供する。
関連論文リスト
- CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Spatio-Temporal Context for Action Detection [2.294635424666456]
本研究は,非集約時間情報の利用を提案する。
主な貢献は2つのクロスアテンションブロックの導入である。
AVAデータセットの実験は、提案手法の利点を示している。
論文 参考訳(メタデータ) (2021-06-29T08:33:48Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition [2.0349696181833337]
本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2021-03-18T23:40:28Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。