Fugu-MT 論文翻訳(概要): Self-Regulated Learning for Egocentric Video Activity Anticipation

論文の概要: Self-Regulated Learning for Egocentric Video Activity Anticipation

arxiv url: http://arxiv.org/abs/2111.11631v1
Date: Tue, 23 Nov 2021 03:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-25 04:02:36.153397
Title: Self-Regulated Learning for Egocentric Video Activity Anticipation
Title（参考訳）: エゴセントリック映像活動予測のための自己制御学習
Authors: Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Qingming Huang, and Qi Tian
Abstract要約: 自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
参考スコア（独自算出の注目度）: 147.9783215348252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Future activity anticipation is a challenging problem in egocentric vision. As a standard future activity anticipation paradigm, recursive sequence prediction suffers from the accumulation of errors. To address this problem, we propose a simple and effective Self-Regulated Learning framework, which aims to regulate the intermediate representation consecutively to produce representation that (a) emphasizes the novel information in the frame of the current time-stamp in contrast to previously observed content, and (b) reflects its correlation with previously observed frames. The former is achieved by minimizing a contrastive loss, and the latter can be achieved by a dynamic reweighing mechanism to attend to informative frames in the observed content with a similarity comparison between feature of the current frame and observed frames. The learned final video representation can be further enhanced by multi-task learning which performs joint feature learning on the target activity labels and the automatically detected action and object class tokens. SRL sharply outperforms existing state-of-the-art in most cases on two egocentric video datasets and two third-person video datasets. Its effectiveness is also verified by the experimental fact that the action and object concepts that support the activity semantics can be accurately identified.
Abstract（参考訳）: 将来の活動予測は、自我中心のビジョンにおいて難しい問題である。標準的な将来の活動予測パラダイムとして、再帰的シーケンス予測はエラーの蓄積に悩まされる。この問題に対処するために,中間表現を連続的に制御して表現を生成する,シンプルで効果的な自己制御学習フレームワークを提案する。 (a)従来観察された内容とは対照的に、現在のタイムスタンプの枠内で新たな情報を強調する。 b) 前述したフレームとの相関を反映する。前者は、コントラスト損失を最小化することにより達成され、後者は、現在のフレームと観測されたフレームの特徴との類似性比較とともに、観察されたコンテンツのインフォメーションフレームに出席するダイナミックリウィーフィング機構によって達成される。学習された最終映像表現は、ターゲットのアクティビティラベルと自動検出されたアクションおよびオブジェクトクラストークンで共同特徴学習を行うマルチタスク学習によりさらに強化することができる。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。その効果は、アクティビティセマンティクスをサポートするアクションとオブジェクトの概念を正確に識別できるという実験的事実によっても検証される。

関連論文リスト

Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文参考訳（メタデータ） (2025-01-07T10:20:16Z)
Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-10-21T07:44:44Z)
Collaboratively Self-supervised Video Representation Learning for Action Recognition [54.92120002380786]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-01-15T10:42:04Z)
SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文参考訳（メタデータ） (2022-10-20T15:21:51Z)
Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。音声信号を用いて、より学習しやすい対話の瞬間を識別する。大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文参考訳（メタデータ） (2022-09-27T17:57:13Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)
Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。 i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文参考訳（メタデータ） (2020-06-22T17:55:59Z)
Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文参考訳（メタデータ） (2020-03-26T23:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。