論文の概要: Few-shot Action Recognition with Permutation-invariant Attention
- arxiv url: http://arxiv.org/abs/2001.03905v3
- Date: Tue, 4 Aug 2020 02:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:49:01.205493
- Title: Few-shot Action Recognition with Permutation-invariant Attention
- Title(参考訳): 変分注意を用いたアクション認識
- Authors: Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S.
Torr, Piotr Koniusz
- Abstract要約: ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
- 参考スコア(独自算出の注目度): 169.61294360056925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many few-shot learning models focus on recognising images. In contrast, we
tackle a challenging task of few-shot action recognition from videos. We build
on a C3D encoder for spatio-temporal video blocks to capture short-range action
patterns. Such encoded blocks are aggregated by permutation-invariant pooling
to make our approach robust to varying action lengths and long-range temporal
dependencies whose patterns are unlikely to repeat even in clips of the same
class. Subsequently, the pooled representations are combined into simple
relation descriptors which encode so-called query and support clips. Finally,
relation descriptors are fed to the comparator with the goal of similarity
learning between query and support clips. Importantly, to re-weight block
contributions during pooling, we exploit spatial and temporal attention modules
and self-supervision. In naturalistic clips (of the same class) there exists a
temporal distribution shift--the locations of discriminative temporal action
hotspots vary. Thus, we permute blocks of a clip and align the resulting
attention regions with similarly permuted attention regions of non-permuted
clip to train the attention mechanism invariant to block (and thus long-term
hotspot) permutations. Our method outperforms the state of the art on the
HMDB51, UCF101, miniMIT datasets.
- Abstract(参考訳): 少数の学習モデルの多くは、画像認識に焦点を当てている。
対照的に、ビデオからの数発のアクション認識という課題に取り組む。
短距離動作パターンをキャプチャする時空間ビデオブロックのためのC3Dエンコーダを構築した。
このようなエンコードされたブロックは、置換不変プーリングによって集約され、同じクラスのクリップであってもパターンが繰り返されない様々なアクション長や時間的依存性に対して、我々のアプローチが堅牢になる。
その後、プールされた表現は、いわゆるクエリとサポートクリップをエンコードする単純なリレーション記述子に結合される。
最後に、クエリとサポートクリップの類似性学習を目標として、関係記述子をコンパレータに供給する。
重要なことに、プール中のブロック貢献を再重み付けするために、空間的および時間的注意モジュールと自己スーパービジョンを利用する。
自然主義的なクリップ(同じクラス)では、時間分布のシフトがあり、識別可能な時間的行動ホットスポットの場所は変化する。
したがって、クリップのブロックをパーミュートし、結果のアテンション領域を非パーミュートクリップのアテンション領域と整列させ、ブロックに不変なアテンション機構を訓練する(したがって長期ホットスポット)。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。