論文の概要: CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2103.10567v1
- Date: Thu, 18 Mar 2021 23:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:34:51.840181
- Title: CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition
- Title(参考訳): clta: 限定的行動認識のためのコンテンツと時間的注意
- Authors: Yang Bo, Yangdi Lu and Wenbo He
- Abstract要約: 本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
- 参考スコア(独自算出の注目度): 2.0349696181833337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition has attracted increasing attention due to the
difficulty in acquiring the properly labelled training samples. Current works
have shown that preserving spatial information and comparing video descriptors
are crucial for few-shot action recognition. However, the importance of
preserving temporal information is not well discussed. In this paper, we
propose a Contents and Length-based Temporal Attention (CLTA) model, which
learns customized temporal attention for the individual video to tackle the
few-shot action recognition problem. CLTA utilizes the Gaussian likelihood
function as the template to generate temporal attention and trains the learning
matrices to study the mean and standard deviation based on both frame contents
and length. We show that even a not fine-tuned backbone with an ordinary
softmax classifier can still achieve similar or better results compared to the
state-of-the-art few-shot action recognition with precisely captured temporal
attention.
- Abstract(参考訳): 適切なラベル付きトレーニングサンプルの取得が困難であることから,少数のアクション認識が注目されている。
最近の研究では、空間情報の保存とビデオディスクリプタの比較が、わずかなアクション認識に不可欠であることが示されている。
しかし,時間的情報保存の重要性についてはあまり議論されていない。
本稿では,個々の映像にカスタマイズされた時間的注意を学習し,限定的なアクション認識問題に取り組むためのコンテンツと長さに基づく時間的注意(clta)モデルを提案する。
CLTAはガウス確率関数をテンプレートとして、時間的注意を発生させ、学習行列を訓練し、フレームの内容と長さの両方に基づいて平均および標準偏差を研究する。
通常のソフトマックス分類器を用いた微調整されていないバックボーンでも、時間的注意を正確に捉えた最新の数ショット動作認識と比較して、同様の、あるいはより良い結果が得られることを示す。
関連論文リスト
- AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。
Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T15:39:40Z) - CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。
本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。
異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:34:55Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T23:41:55Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。