論文の概要: Early Action Recognition with Action Prototypes
- arxiv url: http://arxiv.org/abs/2312.06598v1
- Date: Mon, 11 Dec 2023 18:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:33:45.783218
- Title: Early Action Recognition with Action Prototypes
- Title(参考訳): 行動プロトタイプを用いた早期行動認識
- Authors: Guglielmo Camporese, Alessandro Bergamo, Xunyu Lin, Joseph Tighe,
Davide Modolo
- Abstract要約: 本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
- 参考スコア(独自算出の注目度): 62.826125870298306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early action recognition is an important and challenging problem that enables
the recognition of an action from a partially observed video stream where the
activity is potentially unfinished or even not started. In this work, we
propose a novel model that learns a prototypical representation of the full
action for each class and uses it to regularize the architecture and the visual
representations of the partial observations. Our model is very simple in design
and also efficient. We decompose the video into short clips, where a visual
encoder extracts features from each clip independently. Later, a decoder
aggregates together in an online fashion features from all the clips for the
final class prediction. During training, for each partial observation, the
model is jointly trained to both predict the label as well as the action
prototypical representation which acts as a regularizer. We evaluate our method
on multiple challenging real-world datasets and outperform the current
state-of-the-art by a significant margin. For example, on early recognition
observing only the first 10% of each video, our method improves the SOTA by
+2.23 Top-1 accuracy on Something-Something-v2, +3.55 on UCF-101, +3.68 on
SSsub21, and +5.03 on EPIC-Kitchens-55, where prior work used either
multi-modal inputs (e.g. optical-flow) or batched inference. Finally, we also
present exhaustive ablation studies to motivate the design choices we made, as
well as gather insights regarding what our model is learning semantically.
- Abstract(参考訳): 早期行動認識は重要かつ困難な問題であり、活動が未完了あるいは開始の可能性がある部分的観察ビデオストリームからの行動認識を可能にする。
本研究では,各クラスに対する全動作の原型的表現を学習し,それを用いて部分的観測のアーキテクチャと視覚的表現を正則化する新しいモデルを提案する。
私たちのモデルは設計が非常にシンプルで、効率的です。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終的なクラス予測のために、すべてのクリップからオンラインファッション機能に集約される。
トレーニング中、各部分観察において、モデルはラベルと正規化子として機能するアクションプロトタイプ表現の両方を予測するように共同で訓練される。
我々は,複数の挑戦的な実世界のデータセットについて評価し,現状を著しく上回っている。
例えば、ビデオの最初の10%しか観察できない早期認識では、UCF-101では+2.23 Top-1、SSsub21では+3.68、EPIC-Kitchens-55では+5.03でSOTAの精度を+2.23 Top-1で改善する。
最後に,我々は設計選択を動機づけるため,徹底的なアブレーション研究を行い,モデルが意味的に学習しているものについての洞察を収集した。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Self-supervised Video Representation Learning with Cross-Stream
Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。
最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文 参考訳(メタデータ) (2021-06-18T13:57:51Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。