論文の概要: Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection
- arxiv url: http://arxiv.org/abs/2303.17285v1
- Date: Thu, 30 Mar 2023 10:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:38:05.325240
- Title: Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection
- Title(参考訳): RGBを用いた時間的行動検出のためのクロスモーダル蒸留法
- Authors: Pilhyeon Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Hyeran Byun
- Abstract要約: 時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.48709176879878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection aims to predict the time intervals and the classes
of action instances in the video. Despite the promising performance, existing
two-stream models exhibit slow inference speed due to their reliance on
computationally expensive optical flow. In this paper, we introduce a
decomposed cross-modal distillation framework to build a strong RGB-based
detector by transferring knowledge of the motion modality. Specifically,
instead of direct distillation, we propose to separately learn RGB and motion
representations, which are in turn combined to perform action localization. The
dual-branch design and the asymmetric training objectives enable effective
motion knowledge transfer while preserving RGB information intact. In addition,
we introduce a local attentive fusion to better exploit the multimodal
complementarity. It is designed to preserve the local discriminability of the
features that is important for action localization. Extensive experiments on
the benchmarks verify the effectiveness of the proposed method in enhancing
RGB-based action detectors. Notably, our framework is agnostic to backbones and
detection heads, bringing consistent gains across different model combinations.
- Abstract(参考訳): 時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
有望な性能にもかかわらず、既存の2ストリームモデルは計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することにより,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
具体的には, 直接蒸留の代わりに, RGB と運動表現を別々に学習し, アクションローカライゼーションを行う。
デュアルブランチ設計と非対称トレーニングの目的は、rgb情報をそのまま保持しながら効果的な動作知識の伝達を可能にする。
さらに,マルチモーダル相補性をうまく活用するために,局所的注意融合を導入する。
アクションローカライゼーションにおいて重要な特徴の局所的識別性を維持するように設計されている。
ベンチマークの大規模な実験は、RGBベースのアクション検出器の強化における提案手法の有効性を検証する。
特に、我々のフレームワークはバックボーンや検出ヘッドに非依存であり、異なるモデルの組み合わせで一貫した利得をもたらします。
関連論文リスト
- Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - Prior-enhanced Temporal Action Localization using Subject-aware Spatial
Attention [26.74864808534721]
時間的アクションローカライゼーション(TAL)は、境界を検出し、長いビデオで各アクションインスタンスのクラスを特定することを目的としている。
現在のアプローチでは、ビデオフレームを均質に扱い、バックグラウンドやキーオブジェクトに過度な注意を与える傾向がある。
本稿では,RGB入力のみを取り込み,動作対象を先行として組み込むPETALを提案する。
論文 参考訳(メタデータ) (2022-11-10T02:27:30Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - BAANet: Learning Bi-directional Adaptive Attention Gates for
Multispectral Pedestrian Detection [14.672188805059744]
本研究は、双方向適応ゲート(BAA-Gate)と呼ばれる効率的かつ効率的な相互モード融合モジュールを提案する。
注意機構に基づいて、BAA-ゲイトは情報的特徴を蒸留し、表現を再検討するために考案された。
挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を満足な速さで実証した。
論文 参考訳(メタデータ) (2021-12-04T08:30:54Z) - Learning an Augmented RGB Representation with Cross-Modal Knowledge
Distillation for Action Detection [7.616556723260849]
アクション検出は、アクションを分類するだけでなく、未トリミングビデオでそれらをローカライズする必要がある。
本稿では,2段階の蒸留によるクロスモーダルな知識蒸留フレームワークを提案する。
提案するフレームワークは汎用的であり, 動作検出タスクにおいて他の一般的なクロスモーダル蒸留法より優れている。
論文 参考訳(メタデータ) (2021-08-08T12:04:14Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。