論文の概要: TSAK: Two-Stage Semantic-Aware Knowledge Distillation for Efficient Wearable Modality and Model Optimization in Manufacturing Lines
- arxiv url: http://arxiv.org/abs/2408.14146v1
- Date: Mon, 26 Aug 2024 09:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:23:20.235854
- Title: TSAK: Two-Stage Semantic-Aware Knowledge Distillation for Efficient Wearable Modality and Model Optimization in Manufacturing Lines
- Title(参考訳): TSAK:製造ラインにおける効率的なウェアラブルモダリティとモデル最適化のための2段階セマンティック知識蒸留
- Authors: Hymalai Bello, Daniel Geißler, Sungho Suh, Bo Zhou, Paul Lukowicz,
- Abstract要約: 製造ラインにおける効率, プライバシー, ウェアラブルHARのための2段階のセマンティック・アウェア・ナレッジ蒸留手法TSAKを提案する。
より大きな教師モデルと比較して、学生モデルはシングルハンドのセンサーチャネルを減らし、79%のパラメータを減らし、8.88倍の速度で動作し、96.6%のコンピュータパワー(FLOPS)を必要とする。
- 参考スコア(独自算出の注目度): 4.503003860563811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Smaller machine learning models, with less complex architectures and sensor inputs, can benefit wearable sensor-based human activity recognition (HAR) systems in many ways, from complexity and cost to battery life. In the specific case of smart factories, optimizing human-robot collaboration hinges on the implementation of cutting-edge, human-centric AI systems. To this end, workers' activity recognition enables accurate quantification of performance metrics, improving efficiency holistically. We present a two-stage semantic-aware knowledge distillation (KD) approach, TSAK, for efficient, privacy-aware, and wearable HAR in manufacturing lines, which reduces the input sensor modalities as well as the machine learning model size, while reaching similar recognition performance as a larger multi-modal and multi-positional teacher model. The first stage incorporates a teacher classifier model encoding attention, causal, and combined representations. The second stage encompasses a semantic classifier merging the three representations from the first stage. To evaluate TSAK, we recorded a multi-modal dataset at a smart factory testbed with wearable and privacy-aware sensors (IMU and capacitive) located on both workers' hands. In addition, we evaluated our approach on OpenPack, the only available open dataset mimicking the wearable sensor placements on both hands in the manufacturing HAR scenario. We compared several KD strategies with different representations to regulate the training process of a smaller student model. Compared to the larger teacher model, the student model takes fewer sensor channels from a single hand, has 79% fewer parameters, runs 8.88 times faster, and requires 96.6% less computing power (FLOPS).
- Abstract(参考訳): より小さな機械学習モデルは、複雑なアーキテクチャやセンサー入力が少ないため、複雑さやコストからバッテリー寿命に至るまで、ウェアラブルセンサーベースのヒューマンアクティビティ認識(HAR)システムに多くのメリットをもたらす可能性がある。
スマートファクトリの特定のケースでは、人間とロボットのコラボレーションを最適化することは、最先端の人間中心のAIシステムの実装に依存している。
この目的のために、作業者のアクティビティ認識は、パフォーマンスメトリクスの正確な定量化を可能にし、効率を均等に改善する。
本稿では,2段階のセマンティック・アウェア・ナレッジ・蒸留(KD)手法であるTSAKを製造ラインの効率性,プライバシ・アウェア,ウェアラブルHARに対して提案する。
最初の段階では、注意、因果、複合表現をコードする教師分類器モデルが組み込まれている。
第2段階は、第1段階から3つの表現をマージする意味分類器を含む。
TSAKを評価するために、労働者の両手に位置するウェアラブルおよびプライバシ対応センサー(IMUと容量)でテストされたスマートファクトリでマルチモーダルデータセットを記録した。
さらに、我々は、HAR製造シナリオにおいて、両手のウェアラブルセンサー配置を模倣する唯一のオープンデータセットであるOpenPackに対するアプローチを評価した。
我々は、より小さな学生モデルの学習過程を制御するために、複数のKD戦略を異なる表現で比較した。
より大きな教師モデルと比較して、学生モデルはシングルハンドのセンサーチャネルを減らし、79%のパラメータを減らし、8.88倍の速度で動作し、96.6%のコンピュータパワー(FLOPS)を必要とする。
関連論文リスト
- TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - FedOpenHAR: Federated Multi-Task Transfer Learning for Sensor-Based
Human Activity Recognition [0.0]
本稿では,センサを用いた人間行動認識とデバイス位置識別の両課題に対して,フェデレート・トランスファー・ラーニングをマルチタスク方式で検討する。
OpenHARフレームワークは10個の小さなデータセットを含むモデルをトレーニングするために使用される。
タスク固有でパーソナライズされたフェデレーションモデルを用いたトランスファーラーニングとトレーニングにより、各クライアントを個別に訓練し、完全集中型アプローチよりも高い精度で学習した。
論文 参考訳(メタデータ) (2023-11-13T21:31:07Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity
Recognition [6.0306313759213275]
本稿では,RGBビデオとIMUセンサの機能を効果的に組み合わせたマルチモーダルフレームワークを提案する。
最初の段階では,各入力エンコーダが特徴を効果的に抽出することを学ぶ。
ビデオのみに比べて22%,11%,MMActデータセットでは20%,12%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-11-08T15:48:44Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Progressive Cross-modal Knowledge Distillation for Human Action
Recognition [10.269019492921306]
本稿では,ウェアラブルセンサを用いたHAR問題を解決するための,新しいプログレッシブ・骨格-センサ間知識蒸留(PSKD)モデルを提案する。
具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。
論文 参考訳(メタデータ) (2022-08-17T06:06:03Z) - Two-stage Human Activity Recognition on Microcontrollers with Decision
Trees and CNNs [5.8762433393846045]
HAR(Human Activity Recognition)は、スマートウォッチなどの組み込みデバイスにおいて、ますます人気が高まっているタスクである。
超低消費電力デバイスのためのほとんどのHARシステムは古典的機械学習(ML)モデルに基づいているが、Deep Learning(DL)は高エネルギー消費のためあまり人気がない。
本研究では,決定木 (DT) と1次元畳み込みニューラルネットワーク (1D CNN) からなる階層アーキテクチャにより,デバイス上のHARとDLのギャップを埋める。
論文 参考訳(メタデータ) (2022-06-07T16:08:58Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。