論文の概要: Privileged Knowledge Distillation for Online Action Detection
- arxiv url: http://arxiv.org/abs/2011.09158v2
- Date: Thu, 3 Dec 2020 12:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:31:47.908991
- Title: Privileged Knowledge Distillation for Online Action Detection
- Title(参考訳): オンライン行動検出のための予備知識蒸留
- Authors: Peisen Zhao, Lingxi Xie, Ya Zhang, Yanfeng Wang, Qi Tian
- Abstract要約: リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 114.5213840651675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Action Detection (OAD) in videos is proposed as a per-frame labeling
task to address the real-time prediction tasks that can only obtain the
previous and current video frames. This paper presents a novel
learning-with-privileged based framework for online action detection where the
future frames only observable at the training stages are considered as a form
of privileged information. Knowledge distillation is employed to transfer the
privileged information from the offline teacher to the online student. We note
that this setting is different from conventional KD because the difference
between the teacher and student models mostly lies in input data rather than
the network architecture. We propose Privileged Knowledge Distillation (PKD)
which (i) schedules a curriculum learning procedure and (ii) inserts auxiliary
nodes to the student model, both for shrinking the information gap and
improving learning performance. Compared to other OAD methods that explicitly
predict future frames, our approach avoids learning unpredictable unnecessary
yet inconsistent visual contents and achieves state-of-the-art accuracy on two
popular OAD benchmarks, TVSeries and THUMOS14.
- Abstract(参考訳): ビデオ中のオンラインアクション検出(OAD)は、以前のビデオフレームと現在のビデオフレームしか取得できないリアルタイム予測タスクに対処するために、フレームごとのラベル付けタスクとして提案されている。
本稿では,学習段階においてのみ観察可能な未来フレームを特権的情報として扱う,オンライン行動検出のための新しい学習経験ベースフレームワークを提案する。
知識蒸留を用いて、特権情報をオフラインの教師からオンラインの学生に転送する。
教師と生徒のモデルの違いは主にネットワークアーキテクチャではなく入力データにあるため、この設定は従来のkdとは異なることに留意する。
我々はPKD(Privleged Knowledge Distillation)を提案する。
i)カリキュラムの学習手順をスケジュールし、
(ii)情報ギャップを縮小し、学習性能を向上させるため、補助ノードを学生モデルに挿入する。
将来のフレームを明示的に予測する他のOAD手法と比較して、我々の手法は予測不能な不整合な視覚内容の学習を回避し、2つのOADベンチマークであるTVSeriesとTHUMOS14で最先端の精度を実現する。
関連論文リスト
- PromptKD: Unsupervised Prompt Distillation for Vision-Language Models [40.858721356497085]
本稿では,教師モデルの知識を軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
本フレームワークは,2つの異なる段階から構成される。初期段階では,ドメイン(フェーショット)ラベルを用いて,大規模なCLIP教師モデルを事前訓練する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
論文 参考訳(メタデータ) (2024-03-05T08:53:30Z) - Learning to Retain while Acquiring: Combating Distribution-Shift in
Adversarial Data-Free Knowledge Distillation [31.294947552032088]
データフリーな知識蒸留(DFKD)は、教師から学生ニューラルネットワークへの知識伝達を、訓練データがない状態で行うという基本的な考え方により、近年人気を集めている。
本稿では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)の課題を取り扱うことで,メタ学習にインスパイアされたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T03:50:56Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Bridging the gap between Human Action Recognition and Online Action
Detection [0.456877715768796]
行動認識、早期予測、オンライン行動検出は、しばしば独立して研究される補完的な分野です。
前述の分野間で教師と学生のフレームワークでタスク固有の機能抽出に取り組みます。
当社のネットワークは、オンライン早期予測とオンライン時間セグメント提案を並行して組み込みます。
論文 参考訳(メタデータ) (2021-01-21T21:01:46Z) - ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for
Face Recognition [84.49978494275382]
知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことである。
本研究では,顔認識におけるその応用に焦点を当てる。
本稿では,顔認識の精度を直接最適化するProxylessKDを提案する。
論文 参考訳(メタデータ) (2020-10-31T13:14:34Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。