論文の概要: CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2103.10567v1
- Date: Thu, 18 Mar 2021 23:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:34:51.840181
- Title: CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition
- Title(参考訳): clta: 限定的行動認識のためのコンテンツと時間的注意
- Authors: Yang Bo, Yangdi Lu and Wenbo He
- Abstract要約: 本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
- 参考スコア(独自算出の注目度): 2.0349696181833337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition has attracted increasing attention due to the
difficulty in acquiring the properly labelled training samples. Current works
have shown that preserving spatial information and comparing video descriptors
are crucial for few-shot action recognition. However, the importance of
preserving temporal information is not well discussed. In this paper, we
propose a Contents and Length-based Temporal Attention (CLTA) model, which
learns customized temporal attention for the individual video to tackle the
few-shot action recognition problem. CLTA utilizes the Gaussian likelihood
function as the template to generate temporal attention and trains the learning
matrices to study the mean and standard deviation based on both frame contents
and length. We show that even a not fine-tuned backbone with an ordinary
softmax classifier can still achieve similar or better results compared to the
state-of-the-art few-shot action recognition with precisely captured temporal
attention.
- Abstract(参考訳): 適切なラベル付きトレーニングサンプルの取得が困難であることから,少数のアクション認識が注目されている。
最近の研究では、空間情報の保存とビデオディスクリプタの比較が、わずかなアクション認識に不可欠であることが示されている。
しかし,時間的情報保存の重要性についてはあまり議論されていない。
本稿では,個々の映像にカスタマイズされた時間的注意を学習し,限定的なアクション認識問題に取り組むためのコンテンツと長さに基づく時間的注意(clta)モデルを提案する。
CLTAはガウス確率関数をテンプレートとして、時間的注意を発生させ、学習行列を訓練し、フレームの内容と長さの両方に基づいて平均および標準偏差を研究する。
通常のソフトマックス分類器を用いた微調整されていないバックボーンでも、時間的注意を正確に捉えた最新の数ショット動作認識と比較して、同様の、あるいはより良い結果が得られることを示す。
関連論文リスト
- On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T23:41:55Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Action Forecasting with Feature-wise Self-Attention [20.068238091354583]
ビデオからの人間の行動予測のための新しいアーキテクチャを提案する。
テンポラリカレントエンコーダは、入力ビデオの時間情報をキャプチャする。
自己アテンションモデルは、入力空間の関連する特徴次元に対応するために使用される。
論文 参考訳(メタデータ) (2021-07-19T01:55:30Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。