論文の概要: Action Localization through Continual Predictive Learning
- arxiv url: http://arxiv.org/abs/2003.12185v1
- Date: Thu, 26 Mar 2020 23:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 22:10:04.563826
- Title: Action Localization through Continual Predictive Learning
- Title(参考訳): 連続予測学習による行動局在化
- Authors: Sathyanarayanan N. Aakur, Sudeep Sarkar
- Abstract要約: 本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
- 参考スコア(独自算出の注目度): 14.582013761620738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of action recognition involves locating the action in the video,
both over time and spatially in the image. The dominant current approaches use
supervised learning to solve this problem, and require large amounts of
annotated training data, in the form of frame-level bounding box annotations
around the region of interest. In this paper, we present a new approach based
on continual learning that uses feature-level predictions for self-supervision.
It does not require any training annotations in terms of frame-level bounding
boxes. The approach is inspired by cognitive models of visual event perception
that propose a prediction-based approach to event understanding. We use a stack
of LSTMs coupled with CNN encoder, along with novel attention mechanisms, to
model the events in the video and use this model to predict high-level features
for the future frames. The prediction errors are used to continuously learn the
parameters of the models. This self-supervised framework is not complicated as
other approaches but is very effective in learning robust visual
representations for both labeling and localization. It should be noted that the
approach outputs in a streaming fashion, requiring only a single pass through
the video, making it amenable for real-time processing. We demonstrate this on
three datasets - UCF Sports, JHMDB, and THUMOS'13 and show that the proposed
approach outperforms weakly-supervised and unsupervised baselines and obtains
competitive performance compared to fully supervised baselines. Finally, we
show that the proposed framework can generalize to egocentric videos and obtain
state-of-the-art results in unsupervised gaze prediction.
- Abstract(参考訳): アクション認識の問題は、映像内の動作を時間と空間の両方で位置付けすることである。
現在の主流のアプローチでは、教師あり学習を用いてこの問題を解決し、関心領域を囲むフレームレベルのバウンディングボックスアノテーションという形で、大量の注釈付きトレーニングデータを必要とする。
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
フレームレベルのバウンディングボックスに関して、トレーニング用のアノテーションは必要ない。
このアプローチは、予測に基づくイベント理解アプローチを提案する視覚イベント知覚の認知モデルにインスパイアされている。
我々は,cnnエンコーダと組み合わせたlstmのスタックと,新たなアテンション機構を用いてビデオ内のイベントをモデル化し,このモデルを用いて将来のフレームの高レベル特徴を予測する。
予測誤差はモデルのパラメータを継続的に学習するために使用される。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
このアプローチはストリーミング形式で出力され、動画を1回だけ通過するだけで、リアルタイム処理に適している点に注意が必要だ。
UCFスポーツ、JHMDB、THUMOS'13の3つのデータセットでこれを実証し、提案手法が弱教師付きベースライン、非教師付きベースラインより優れ、完全に教師付きベースラインよりも競争性能が高いことを示す。
最後に,提案手法をエゴセントリックビデオに一般化し,教師なし視線予測に最先端の結果を得ることができることを示す。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes [19.987151025364067]
本稿では,信頼度の高い群集カウントモデルをトレーニングするための,新しい半教師付き手法を提案する。
モデルの本質的な'サブタイズ'能力を育み、領域の数を正確に見積もることができる。
提案手法は,従来の手法を,挑戦的ベンチマークにおいて大きな差で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-16T12:42:43Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。