論文の概要: Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition
- arxiv url: http://arxiv.org/abs/2112.01849v1
- Date: Fri, 8 Oct 2021 15:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-12 00:56:38.476962
- Title: Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition
- Title(参考訳): 視覚-センサ間行動認識のためのクロスモーダル知識蒸留
- Authors: Jianyuan Ni, Raunak Sarbajna, Yang Liu, Anne H.H. Ngu and Yan Yan
- Abstract要約: 本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
- 参考スコア(独自算出の注目度): 12.682984063354748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activity recognition (HAR) based on multi-modal approach has been
recently shown to improve the accuracy performance of HAR. However, restricted
computational resources associated with wearable devices, i.e., smartwatch,
failed to directly support such advanced methods. To tackle this issue, this
study introduces an end-to-end Vision-to-Sensor Knowledge Distillation (VSKD)
framework. In this VSKD framework, only time-series data, i.e., accelerometer
data, is needed from wearable devices during the testing phase. Therefore, this
framework will not only reduce the computational demands on edge devices, but
also produce a learning model that closely matches the performance of the
computational expensive multi-modal approach. In order to retain the local
temporal relationship and facilitate visual deep learning models, we first
convert time-series data to two-dimensional images by applying the Gramian
Angular Field ( GAF) based encoding method. We adopted ResNet18 and multi-scale
TRN with BN-Inception as teacher and student network in this study,
respectively. A novel loss function, named Distance and Angle-wised Semantic
Knowledge loss (DASK), is proposed to mitigate the modality variations between
the vision and the sensor domain. Extensive experimental results on UTD-MHAD,
MMAct, and Berkeley-MHAD datasets demonstrate the effectiveness and
competitiveness of the proposed VSKD model which can deployed on wearable
sensors.
- Abstract(参考訳): 近年,HARの精度向上のために,マルチモーダルアプローチに基づくヒューマンアクティビティ認識(HAR)が実証されている。
しかし、ウェアラブルデバイスに関連する限られた計算資源、すなわちスマートウォッチは、そのような高度な手法を直接サポートできなかった。
そこで本研究では,VSKDフレームワークをエンド・ツー・エンドで導入する。
このvskdフレームワークでは、テストフェーズ中にウェアラブルデバイスから、時系列データ、すなわち加速度計データのみが必要である。
したがって、このフレームワークはエッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチの性能と密に一致した学習モデルも生成する。
局所的な時間的関係を維持し、視覚的深層学習モデルを容易にするために、まずグラミアン角場(gaf)に基づく符号化法を適用し、時系列データを二次元画像に変換する。
本研究では,教師ネットワークとしてResNet18とBN-Inceptionを用いたマルチスケールTRNを採用した。
視覚領域とセンサ領域のモーダリティ変動を緩和するために, 距離と角度方向意味知識損失(dask)という新しい損失関数を提案した。
UTD-MHAD,MMAct,Berkeley-MHADデータセットの大規模な実験結果から,ウェアラブルセンサに展開可能なVSKDモデルの有効性と競争性を実証した。
関連論文リスト
- Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Progressive Cross-modal Knowledge Distillation for Human Action
Recognition [10.269019492921306]
本稿では,ウェアラブルセンサを用いたHAR問題を解決するための,新しいプログレッシブ・骨格-センサ間知識蒸留(PSKD)モデルを提案する。
具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。
論文 参考訳(メタデータ) (2022-08-17T06:06:03Z) - Beyond the Gates of Euclidean Space: Temporal-Discrimination-Fusions and
Attention-based Graph Neural Network for Human Activity Recognition [5.600003119721707]
ウェアラブルデバイスによるヒューマンアクティビティ認識(HAR)は、フィットネストラッキング、ウェルネススクリーニング、生活支援など多くの応用により、大きな関心を集めている。
従来のディープラーニング(DL)は、HARドメインのアートパフォーマンスの状態を規定している。
提案手法はグラフニューラルネットワーク(GNN)を用いて,入力表現を構造化し,サンプル間の関係性を利用する手法である。
論文 参考訳(メタデータ) (2022-06-10T03:04:23Z) - Evaluation and Comparison of Deep Learning Methods for Pavement Crack
Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。
パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。
正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文 参考訳(メタデータ) (2021-12-20T08:23:43Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object
Tracking [8.791710193028903]
本研究は,グラフに基づくデータ構造を用いて問題をモデル化する多目的追跡(MOT)への多くの従来のアプローチに従う。
複数のタイムステップにまたがるデータ関連問題を表す動的無方向性グラフに基づくフレームワークを作成する。
また、メモリ効率が高く、リアルタイムなオンラインアルゴリズムを作成するために対処する必要がある計算問題に対するソリューションと提案も提供します。
論文 参考訳(メタデータ) (2021-01-11T21:52:25Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。