Fugu-MT 論文翻訳(概要): Cross-modal Knowledge Distillation for Vision-to-Sensor Action Recognition

論文の概要: Cross-modal Knowledge Distillation for Vision-to-Sensor Action Recognition

arxiv url: http://arxiv.org/abs/2112.01849v1
Date: Fri, 8 Oct 2021 15:06:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-12 00:56:38.476962
Title: Cross-modal Knowledge Distillation for Vision-to-Sensor Action Recognition
Title（参考訳）: 視覚-センサ間行動認識のためのクロスモーダル知識蒸留
Authors: Jianyuan Ni, Raunak Sarbajna, Yang Liu, Anne H.H. Ngu and Yan Yan
Abstract要約: 本研究では、VSKDフレームワークをエンドツーエンドで導入する。このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
参考スコア（独自算出の注目度）: 12.682984063354748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human activity recognition (HAR) based on multi-modal approach has been recently shown to improve the accuracy performance of HAR. However, restricted computational resources associated with wearable devices, i.e., smartwatch, failed to directly support such advanced methods. To tackle this issue, this study introduces an end-to-end Vision-to-Sensor Knowledge Distillation (VSKD) framework. In this VSKD framework, only time-series data, i.e., accelerometer data, is needed from wearable devices during the testing phase. Therefore, this framework will not only reduce the computational demands on edge devices, but also produce a learning model that closely matches the performance of the computational expensive multi-modal approach. In order to retain the local temporal relationship and facilitate visual deep learning models, we first convert time-series data to two-dimensional images by applying the Gramian Angular Field ( GAF) based encoding method. We adopted ResNet18 and multi-scale TRN with BN-Inception as teacher and student network in this study, respectively. A novel loss function, named Distance and Angle-wised Semantic Knowledge loss (DASK), is proposed to mitigate the modality variations between the vision and the sensor domain. Extensive experimental results on UTD-MHAD, MMAct, and Berkeley-MHAD datasets demonstrate the effectiveness and competitiveness of the proposed VSKD model which can deployed on wearable sensors.
Abstract（参考訳）: 近年,HARの精度向上のために,マルチモーダルアプローチに基づくヒューマンアクティビティ認識(HAR)が実証されている。しかし、ウェアラブルデバイスに関連する限られた計算資源、すなわちスマートウォッチは、そのような高度な手法を直接サポートできなかった。そこで本研究では,VSKDフレームワークをエンド・ツー・エンドで導入する。このvskdフレームワークでは、テストフェーズ中にウェアラブルデバイスから、時系列データ、すなわち加速度計データのみが必要である。したがって、このフレームワークはエッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチの性能と密に一致した学習モデルも生成する。局所的な時間的関係を維持し、視覚的深層学習モデルを容易にするために、まずグラミアン角場(gaf)に基づく符号化法を適用し、時系列データを二次元画像に変換する。本研究では,教師ネットワークとしてResNet18とBN-Inceptionを用いたマルチスケールTRNを採用した。視覚領域とセンサ領域のモーダリティ変動を緩和するために, 距離と角度方向意味知識損失(dask)という新しい損失関数を提案した。 UTD-MHAD,MMAct,Berkeley-MHADデータセットの大規模な実験結果から,ウェアラブルセンサに展開可能なVSKDモデルの有効性と競争性を実証した。

関連論文リスト

Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文参考訳（メタデータ） (2025-04-23T08:40:44Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Topological Persistence Guided Knowledge Distillation for Wearable Sensor Data [15.326571438985466]
トポロジカルデータ解析(TDA)によって得られるトポロジカルな特徴は潜在的な解決策として提案されている。深層学習にトポロジ的特徴を用いることには2つの大きな障害がある。そこで本研究では,生の時系列データに基づいてトレーニングした教師ネットワークと,TDA法により生成された永続性画像に基づいてトレーニングした教師ネットワークの2つを提案する。頑健な学生モデルを蒸留し、トポロジ的特徴を暗黙的に保存しながら、時系列データのみを入力として使用する。
論文参考訳（メタデータ） (2024-07-07T10:08:34Z)
Simple 2D Convolutional Neural Network-based Approach for COVID-19 Detection [8.215897530386343]
本研究では,肺CT画像解析におけるディープラーニング技術の利用について検討した。我々は,CTスキャンに適した高度な空間スライス特徴学習(SSFL++)フレームワークを提案する。本研究の目的は,CTスキャン全体のアウト・オブ・ディストリビューション(OOD)データをフィルタリングし,データ冗長性を70%削減して解析に不可欠な空間スライス特徴を選択することである。
論文参考訳（メタデータ） (2024-03-17T14:34:51Z)
Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。 ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文参考訳（メタデータ） (2023-09-07T13:10:06Z)
Progressive Cross-modal Knowledge Distillation for Human Action Recognition [10.269019492921306]
本稿では,ウェアラブルセンサを用いたHAR問題を解決するための,新しいプログレッシブ・骨格-センサ間知識蒸留(PSKD)モデルを提案する。具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。
論文参考訳（メタデータ） (2022-08-17T06:06:03Z)
Evaluation and Comparison of Deep Learning Methods for Pavement Crack Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文参考訳（メタデータ） (2021-12-20T08:23:43Z)
EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。 EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-24T08:48:16Z)
Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文参考訳（メタデータ） (2020-09-01T03:38:31Z)
Modality Compensation Network: Cross-Modal Adaptation for Action Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-31T04:51:55Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。