論文の概要: Self-Regulated Learning for Egocentric Video Activity Anticipation
- arxiv url: http://arxiv.org/abs/2111.11631v1
- Date: Tue, 23 Nov 2021 03:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 04:02:36.153397
- Title: Self-Regulated Learning for Egocentric Video Activity Anticipation
- Title(参考訳): エゴセントリック映像活動予測のための自己制御学習
- Authors: Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Qingming Huang, and Qi Tian
- Abstract要約: 自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 147.9783215348252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future activity anticipation is a challenging problem in egocentric vision.
As a standard future activity anticipation paradigm, recursive sequence
prediction suffers from the accumulation of errors. To address this problem, we
propose a simple and effective Self-Regulated Learning framework, which aims to
regulate the intermediate representation consecutively to produce
representation that (a) emphasizes the novel information in the frame of the
current time-stamp in contrast to previously observed content, and (b) reflects
its correlation with previously observed frames. The former is achieved by
minimizing a contrastive loss, and the latter can be achieved by a dynamic
reweighing mechanism to attend to informative frames in the observed content
with a similarity comparison between feature of the current frame and observed
frames. The learned final video representation can be further enhanced by
multi-task learning which performs joint feature learning on the target
activity labels and the automatically detected action and object class tokens.
SRL sharply outperforms existing state-of-the-art in most cases on two
egocentric video datasets and two third-person video datasets. Its
effectiveness is also verified by the experimental fact that the action and
object concepts that support the activity semantics can be accurately
identified.
- Abstract(参考訳): 将来の活動予測は、自我中心のビジョンにおいて難しい問題である。
標準的な将来の活動予測パラダイムとして、再帰的シーケンス予測はエラーの蓄積に悩まされる。
この問題に対処するために,中間表現を連続的に制御して表現を生成する,シンプルで効果的な自己制御学習フレームワークを提案する。
(a)従来観察された内容とは対照的に、現在のタイムスタンプの枠内で新たな情報を強調する。
b) 前述したフレームとの相関を反映する。
前者は、コントラスト損失を最小化することにより達成され、後者は、現在のフレームと観測されたフレームの特徴との類似性比較とともに、観察されたコンテンツのインフォメーションフレームに出席するダイナミックリウィーフィング機構によって達成される。
学習された最終映像表現は、ターゲットのアクティビティラベルと自動検出されたアクションおよびオブジェクトクラストークンで共同特徴学習を行うマルチタスク学習によりさらに強化することができる。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
その効果は、アクティビティセマンティクスをサポートするアクションとオブジェクトの概念を正確に識別できるという実験的事実によっても検証される。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。