論文の概要: Learning an Augmented RGB Representation with Cross-Modal Knowledge
Distillation for Action Detection
- arxiv url: http://arxiv.org/abs/2108.03619v1
- Date: Sun, 8 Aug 2021 12:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:27:38.966082
- Title: Learning an Augmented RGB Representation with Cross-Modal Knowledge
Distillation for Action Detection
- Title(参考訳): 動作検出のためのクロスモーダル知識蒸留による拡張RGB表現の学習
- Authors: Rui Dai, Srijan Das, Francois Bremond
- Abstract要約: アクション検出は、アクションを分類するだけでなく、未トリミングビデオでそれらをローカライズする必要がある。
本稿では,2段階の蒸留によるクロスモーダルな知識蒸留フレームワークを提案する。
提案するフレームワークは汎用的であり, 動作検出タスクにおいて他の一般的なクロスモーダル蒸留法より優れている。
- 参考スコア(独自算出の注目度): 7.616556723260849
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In video understanding, most cross-modal knowledge distillation (KD) methods
are tailored for classification tasks, focusing on the discriminative
representation of the trimmed videos. However, action detection requires not
only categorizing actions, but also localizing them in untrimmed videos.
Therefore, transferring knowledge pertaining to temporal relations is critical
for this task which is missing in the previous cross-modal KD frameworks. To
this end, we aim at learning an augmented RGB representation for action
detection, taking advantage of additional modalities at training time through
KD. We propose a KD framework consisting of two levels of distillation. On one
hand, atomic-level distillation encourages the RGB student to learn the
sub-representation of the actions from the teacher in a contrastive manner. On
the other hand, sequence-level distillation encourages the student to learn the
temporal knowledge from the teacher, which consists of transferring the Global
Contextual Relations and the Action Boundary Saliency. The result is an
Augmented-RGB stream that can achieve competitive performance as the two-stream
network while using only RGB at inference time. Extensive experimental analysis
shows that our proposed distillation framework is generic and outperforms other
popular cross-modal distillation methods in action detection task.
- Abstract(参考訳): ビデオ理解において、ほとんどのクロスモーダルな知識蒸留(KD)法は、トリミングされたビデオの識別的表現に焦点をあてて分類作業に適合している。
しかし、アクション検出には、アクションを分類するだけでなく、未トリミングビデオにローカライズする必要がある。
したがって、それまでのクロスモーダルkdフレームワークに欠けているこのタスクには、時間的関係に関する知識の伝達が不可欠である。
そこで本研究では,KD による学習時間に付加的なモダリティを生かして,行動検出のための拡張 RGB 表現の学習を目指す。
2つの蒸留レベルからなるKDフレームワークを提案する。
一方、原子レベルの蒸留では、RGBの学生が教師の行動のサブ表現を対照的に学習することを奨励している。
一方、シーケンスレベルの蒸留は、グローバル・コンテクスト関係とアクション・バウンダリ・サリエンシ(Action Boundary Saliency)を移譲することからなる時間的知識を教師から学ぶことを奨励する。
その結果、Augmented-RGBストリームは、推論時にのみRGBを使用しながら、2ストリームネットワークとして競合性能を達成することができる。
大規模実験により,提案手法は汎用的であり,他の一般的なクロスモーダル蒸留法よりも優れた性能を示した。
関連論文リスト
- Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Bridging the gap between Human Action Recognition and Online Action
Detection [0.456877715768796]
行動認識、早期予測、オンライン行動検出は、しばしば独立して研究される補完的な分野です。
前述の分野間で教師と学生のフレームワークでタスク固有の機能抽出に取り組みます。
当社のネットワークは、オンライン早期予測とオンライン時間セグメント提案を並行して組み込みます。
論文 参考訳(メタデータ) (2021-01-21T21:01:46Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。