論文の概要: Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition
- arxiv url: http://arxiv.org/abs/2009.00210v5
- Date: Thu, 27 May 2021 07:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:20:11.841052
- Title: Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition
- Title(参考訳): センサ・ツー・ビジョン動作認識のためのセマンティクス・アウェア適応知識蒸留
- Authors: Yang Liu, Keze Wang, Guanbin Li, Liang Lin
- Abstract要約: 本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
- 参考スコア(独自算出の注目度): 131.6328804788164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-based action recognition is susceptible to occlusion and
appearance variations, while wearable sensors can alleviate these challenges by
capturing human motion with one-dimensional time-series signal. For the same
action, the knowledge learned from vision sensors and wearable sensors, may be
related and complementary. However, there exists significantly large modality
difference between action data captured by wearable-sensor and vision-sensor in
data dimension, data distribution and inherent information content. In this
paper, we propose a novel framework, named Semantics-aware Adaptive Knowledge
Distillation Networks (SAKDN), to enhance action recognition in vision-sensor
modality (videos) by adaptively transferring and distilling the knowledge from
multiple wearable sensors. The SAKDN uses multiple wearable-sensors as teacher
modalities and uses RGB videos as student modality. To preserve local temporal
relationship and facilitate employing visual deep learning model, we transform
one-dimensional time-series signals of wearable sensors to two-dimensional
images by designing a gramian angular field based virtual image generation
model. Then, we build a novel Similarity-Preserving Adaptive Multi-modal Fusion
Module to adaptively fuse intermediate representation knowledge from different
teacher networks. Finally, to fully exploit and transfer the knowledge of
multiple well-trained teacher networks to the student network, we propose a
novel Graph-guided Semantically Discriminative Mapping loss, which utilizes
graph-guided ablation analysis to produce a good visual explanation
highlighting the important regions across modalities and concurrently
preserving the interrelations of original data. Experimental results on
Berkeley-MHAD, UTD-MHAD and MMAct datasets well demonstrate the effectiveness
of our proposed SAKDN.
- Abstract(参考訳): 既存の視覚ベースの行動認識は、咬合や外観の変化に影響を受けやすいが、ウェアラブルセンサーは人間の動きを1次元の時系列信号で捉えることで、これらの課題を軽減できる。
同じアクションのために、視覚センサーとウェアラブルセンサーから学んだ知識は、関連して補完的かもしれない。
しかし、ウェアラブルセンサーが捉えたアクションデータと、データ次元、データ分布、固有情報内容の視覚センサーの間には、かなり大きなモダリティ差が存在する。
本稿では,複数のウェアラブルセンサからの知識を適応的に伝達・蒸留することにより,視覚センサのモダリティ(動画)における行動認識を強化するための,セマンティックス対応型適応的知識蒸留ネットワーク(SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGBビデオを学生のモダリティとして使用している。
局所的な時間的関係を保ち、視覚的深層学習モデルの利用を容易にするため、グラミアン角場に基づく仮想画像生成モデルの設計により、ウェアラブルセンサの1次元時系列信号を2次元画像に変換する。
次に,異なる教師ネットワークから中間表現知識を適応的に融合する,新しい類似性保存型適応マルチモーダル融合モジュールを構築する。
最後に,複数の教師ネットワークの知識を十分に活用し,学生ネットワークに伝達するために,グラフ誘導アブレーション解析を用いて,重要領域を特徴付け,原データの相互関係を同時保存する,新しいグラフ誘導意味判別マッピング損失を提案する。
バークレー・MHAD, UTD-MHADおよびMMActデータセットの実験結果は, 提案したSAKDNの有効性をよく示している。
関連論文リスト
- TASKED: Transformer-based Adversarial learning for human activity
recognition using wearable sensors via Self-KnowledgE Distillation [6.458496335718508]
本稿では,TASKED(Self-KnowledgE Distillation)を用いたウェアラブルセンサを用いた,トランスフォーマーに基づく人間行動認識のための新しい逆学習フレームワークを提案する。
提案手法では,教師なしの自己知識蒸留を採用し,訓練手順の安定性と人間の活動認識性能を向上させる。
論文 参考訳(メタデータ) (2022-09-14T11:08:48Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Deep Transfer Learning with Graph Neural Network for Sensor-Based Human
Activity Recognition [12.51766929898714]
我々は,センサに基づくHARタスクに対して,グラフに着想を得たディープラーニングアプローチを考案した。
本稿では,センサベースHARタスクに対するグラフ畳み込みニューラルネットワーク(ResGCNN)の多層構造について述べる。
PAMAP2およびmHealthデータセットの実験結果から,我々のResGCNNは行動の特徴を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2022-03-14T07:57:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - SSTN: Self-Supervised Domain Adaptation Thermal Object Detection for
Autonomous Driving [6.810856082577402]
コントラスト学習により可視スペクトル領域と赤外スペクトル領域の情報を最大化するための機能埋め込みを学習するためのディープニューラルネットワークSelf Supervised Thermal Network (SSTN)を提案する。
提案手法は、FLIR-ADASデータセットとKAISTマルチスペクトラルデータセットの2つの公開データセットで広く評価されている。
論文 参考訳(メタデータ) (2021-03-04T16:42:49Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - A Framework for Learning Invariant Physical Relations in Multimodal
Sensory Processing [0.0]
我々は、教師なしの方法で、知覚的手がかり間の関係を学習できる新しいニューラルネットワークアーキテクチャを設計する。
低次元知覚データにおける任意の非線形関係を学習する際のコアシステム機能について述べる。
我々は、標準的なRGBカメラフレームから物理量間の関係を学習する現実世界の学習問題を通してこれを実証する。
論文 参考訳(メタデータ) (2020-06-30T08:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。