論文の概要: Self-Regulated Learning for Egocentric Video Activity Anticipation
- arxiv url: http://arxiv.org/abs/2111.11631v1
- Date: Tue, 23 Nov 2021 03:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 04:02:36.153397
- Title: Self-Regulated Learning for Egocentric Video Activity Anticipation
- Title(参考訳): エゴセントリック映像活動予測のための自己制御学習
- Authors: Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Qingming Huang, and Qi Tian
- Abstract要約: 自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 147.9783215348252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future activity anticipation is a challenging problem in egocentric vision.
As a standard future activity anticipation paradigm, recursive sequence
prediction suffers from the accumulation of errors. To address this problem, we
propose a simple and effective Self-Regulated Learning framework, which aims to
regulate the intermediate representation consecutively to produce
representation that (a) emphasizes the novel information in the frame of the
current time-stamp in contrast to previously observed content, and (b) reflects
its correlation with previously observed frames. The former is achieved by
minimizing a contrastive loss, and the latter can be achieved by a dynamic
reweighing mechanism to attend to informative frames in the observed content
with a similarity comparison between feature of the current frame and observed
frames. The learned final video representation can be further enhanced by
multi-task learning which performs joint feature learning on the target
activity labels and the automatically detected action and object class tokens.
SRL sharply outperforms existing state-of-the-art in most cases on two
egocentric video datasets and two third-person video datasets. Its
effectiveness is also verified by the experimental fact that the action and
object concepts that support the activity semantics can be accurately
identified.
- Abstract(参考訳): 将来の活動予測は、自我中心のビジョンにおいて難しい問題である。
標準的な将来の活動予測パラダイムとして、再帰的シーケンス予測はエラーの蓄積に悩まされる。
この問題に対処するために,中間表現を連続的に制御して表現を生成する,シンプルで効果的な自己制御学習フレームワークを提案する。
(a)従来観察された内容とは対照的に、現在のタイムスタンプの枠内で新たな情報を強調する。
b) 前述したフレームとの相関を反映する。
前者は、コントラスト損失を最小化することにより達成され、後者は、現在のフレームと観測されたフレームの特徴との類似性比較とともに、観察されたコンテンツのインフォメーションフレームに出席するダイナミックリウィーフィング機構によって達成される。
学習された最終映像表現は、ターゲットのアクティビティラベルと自動検出されたアクションおよびオブジェクトクラストークンで共同特徴学習を行うマルチタスク学習によりさらに強化することができる。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
その効果は、アクティビティセマンティクスをサポートするアクションとオブジェクトの概念を正確に識別できるという実験的事実によっても検証される。
関連論文リスト
- Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Collaboratively Self-supervised Video Representation Learning for Action Recognition [54.92120002380786]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。