Fugu-MT 論文翻訳(概要): CLTA: Contents and Length-based Temporal Attention for Few-shot Action Recognition

論文の概要: CLTA: Contents and Length-based Temporal Attention for Few-shot Action Recognition

arxiv url: http://arxiv.org/abs/2103.10567v1
Date: Thu, 18 Mar 2021 23:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 14:34:51.840181
Title: CLTA: Contents and Length-based Temporal Attention for Few-shot Action Recognition
Title（参考訳）: clta: 限定的行動認識のためのコンテンツと時間的注意
Authors: Yang Bo, Yangdi Lu and Wenbo He
Abstract要約: 本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
参考スコア（独自算出の注目度）: 2.0349696181833337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot action recognition has attracted increasing attention due to the difficulty in acquiring the properly labelled training samples. Current works have shown that preserving spatial information and comparing video descriptors are crucial for few-shot action recognition. However, the importance of preserving temporal information is not well discussed. In this paper, we propose a Contents and Length-based Temporal Attention (CLTA) model, which learns customized temporal attention for the individual video to tackle the few-shot action recognition problem. CLTA utilizes the Gaussian likelihood function as the template to generate temporal attention and trains the learning matrices to study the mean and standard deviation based on both frame contents and length. We show that even a not fine-tuned backbone with an ordinary softmax classifier can still achieve similar or better results compared to the state-of-the-art few-shot action recognition with precisely captured temporal attention.
Abstract（参考訳）: 適切なラベル付きトレーニングサンプルの取得が困難であることから,少数のアクション認識が注目されている。最近の研究では、空間情報の保存とビデオディスクリプタの比較が、わずかなアクション認識に不可欠であることが示されている。しかし,時間的情報保存の重要性についてはあまり議論されていない。本稿では,個々の映像にカスタマイズされた時間的注意を学習し,限定的なアクション認識問題に取り組むためのコンテンツと長さに基づく時間的注意(clta)モデルを提案する。 CLTAはガウス確率関数をテンプレートとして、時間的注意を発生させ、学習行列を訓練し、フレームの内容と長さの両方に基づいて平均および標準偏差を研究する。通常のソフトマックス分類器を用いた微調整されていないバックボーンでも、時間的注意を正確に捉えた最新の数ショット動作認識と比較して、同様の、あるいはより良い結果が得られることを示す。

関連論文リスト

AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。 Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T15:39:40Z)
CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文参考訳（メタデータ） (2025-01-13T11:34:55Z)
On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文参考訳（メタデータ） (2023-08-14T12:58:02Z)
Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文参考訳（メタデータ） (2023-08-07T23:41:55Z)
Implicit Temporal Modeling with Learnable Alignment for Video Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。 ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文参考訳（メタデータ） (2023-04-20T17:11:01Z)
Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文参考訳（メタデータ） (2022-06-26T16:45:56Z)
Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文参考訳（メタデータ） (2022-03-25T12:15:49Z)
Stacked Temporal Attention: Improving First-person Action Recognition by Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文参考訳（メタデータ） (2021-12-02T08:02:35Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
Action Forecasting with Feature-wise Self-Attention [20.068238091354583]
ビデオからの人間の行動予測のための新しいアーキテクチャを提案する。テンポラリカレントエンコーダは、入力ビデオの時間情報をキャプチャする。自己アテンションモデルは、入力空間の関連する特徴次元に対応するために使用される。
論文参考訳（メタデータ） (2021-07-19T01:55:30Z)
Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文参考訳（メタデータ） (2020-01-12T10:58:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。