論文の概要: MobiAct: Efficient MAV Action Recognition Using MobileNetV4 with Contrastive Learning and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2510.19273v1
- Date: Wed, 22 Oct 2025 06:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.150099
- Title: MobiAct: Efficient MAV Action Recognition Using MobileNetV4 with Contrastive Learning and Knowledge Distillation
- Title(参考訳): MobiAct: コントラスト学習と知識蒸留を併用したMobileNetV4を用いた効率的なMAV行動認識
- Authors: Zhang Nengbo, Ho Hann Woei,
- Abstract要約: 本稿では,計算コストの低い高精度なMAV行動認識フレームワークMobiActを提案する。
具体的には、MobiActはMobileNetV4をバックボーンネットワークとして採用し、Stage-wise Orthogonal Knowledge Distillation戦略を導入している。
実験結果から, MobiActは低エネルギーかつ低演算のMAV動作認識を実現することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate and efficient recognition of Micro Air Vehicle (MAV) motion is essential for enabling real-time perception and coordination in autonomous aerial swarm. However, most existing approaches rely on large, computationally intensive models that are unsuitable for resource-limited MAV platforms, which results in a trade-off between recognition accuracy and inference speed. To address these challenges, this paper proposes a lightweight MAV action recognition framework, MobiAct, designed to achieve high accuracy with low computational cost. Specifically, MobiAct adopts MobileNetV4 as the backbone network and introduces a Stage-wise Orthogonal Knowledge Distillation (SOKD) strategy to effectively transfer MAV motion features from a teacher network (ResNet18) to a student network, thereby enhancing knowledge transfer efficiency. Furthermore, a parameter-free attention mechanism is integrated into the architecture to improve recognition accuracy without increasing model complexity. In addition, a hybrid loss training strategy is developed to combine multiple loss objectives, which ensures stable and robust optimization during training. Experimental results demonstrate that the proposed MobiAct achieves low-energy and low-computation MAV action recognition, while maintaining the fastest action decoding speed among compared methods. Across all three self-collected datasets, MobiAct achieves an average recognition accuracy of 92.12%, while consuming only 136.16 pJ of energy and processing recognition at a rate of 8.84 actions per second. Notably, MobiAct decodes actions up to 2 times faster than the leading method, with highly comparable recognition accuracy, highlighting its superior efficiency in MAV action recognition.
- Abstract(参考訳): 自律飛行群におけるリアルタイム認識と協調を可能にするためには,MAV(Micro Air Vehicle)運動の高精度かつ効率的な認識が不可欠である。
しかし、既存のほとんどのアプローチは、リソース制限されたMAVプラットフォームには適さない大規模で計算集約的なモデルに依存しており、認識精度と推論速度のトレードオフをもたらす。
これらの課題に対処するために,計算コストの低い高精度なMAV行動認識フレームワークMobiActを提案する。
具体的には、MobiActはMobileNetV4をバックボーンネットワークとして採用し、教師ネットワーク(ResNet18)から学生ネットワークへMAV動作機能を効果的に転送し、知識伝達効率を高めるための段階的直交知識蒸留(SOKD)戦略を導入する。
さらに、モデル複雑性を増大させることなく認識精度を向上させるために、パラメータフリーアテンション機構をアーキテクチャに統合する。
さらに、複数の損失目標を組み合わせたハイブリッド損失訓練戦略が開発され、トレーニング中に安定かつ堅牢な最適化が保証される。
実験結果から, MobiAct は低エネルギーかつ低演算の MAV 動作認識を実現し, 比較法で最速の動作復号速度を維持した。
MobiActは3つの自己収集データセットの中で平均認識精度92.12%を達成し、エネルギー136.16 pJしか消費していない。
特にMobiActは、先行する手法よりも最大2倍高速な動作をデコードし、高い精度で認識し、MAVの動作認識におけるその優れた効率を強調している。
関連論文リスト
- VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation [76.13140980997508]
VLA(Vision-Language Action)モデルは、事前訓練された視覚言語モデル(VLM)の強い知覚能力を活用することにより、ロボット操作を著しく向上させる。
本稿では,VLMに事前訓練された小規模な行動モデルから知識を伝達することで,動作実行能力を持たせる,簡易かつ効果的な蒸留ベースフレームワークを提案する。
5つの操作課題にわたる実世界の実験において,本手法は教師モデルより一貫して優れ,82.0%の成功率(17%改善)を達成した。
論文 参考訳(メタデータ) (2025-10-10T17:59:56Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Real-time Monitoring of Lower Limb Movement Resistance Based on Deep Learning [0.0]
リアルタイム下肢運動抵抗モニタリングは,リハビリテーションや運動訓練などの臨床・スポーツ分野での様々な用途において重要である。
効率的な特徴抽出のためにMobileNetV3を統合した新しいMobile Multi-Task Learning Network (MMTL-Net)を提案する。
MMTL-Netの利点は、精度の向上、レイテンシの低減、計算効率の向上であり、リアルタイムアプリケーションに非常に適している。
論文 参考訳(メタデータ) (2024-10-13T18:19:48Z) - TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition [22.84073695186728]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Research on target detection method of distracted driving behavior based on improved YOLOv8 [6.405098280736171]
本研究では,BOTNetモジュール,GAMアテンション機構,EIoU損失関数を統合することで,従来のYOLOv8モデルに基づく改良されたYOLOv8検出手法を提案する。
実験の結果, 精度は99.4%であり, 検出速度, 精度ともに良好であった。
論文 参考訳(メタデータ) (2024-07-02T00:43:41Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Action Unit Memory Network for Weakly Supervised Temporal Action
Localization [124.61981738536642]
弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
AUMN(Action Unit Memory Network)は、時間的行動の弱い局在化を監督する。
論文 参考訳(メタデータ) (2021-04-29T06:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。