論文の概要: Transfer Learning for Keypoint Detection in Low-Resolution Thermal TUG Test Images
- arxiv url: http://arxiv.org/abs/2501.18453v1
- Date: Thu, 30 Jan 2025 16:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:11.939334
- Title: Transfer Learning for Keypoint Detection in Low-Resolution Thermal TUG Test Images
- Title(参考訳): 低分解能熱TUG試験画像におけるキーポイント検出のための伝達学習
- Authors: Wei-Lun Chen, Chia-Yeh Hsieh, Yu-Hsiang Kao, Kai-Chun Liu, Sheng-Yu Peng, Yu Tsao,
- Abstract要約: 本研究では,トランスファーラーニング技術を用いた低分解能熱画像における人間のキーポイント検出に対する新しいアプローチを提案する。
熱画像コンピュータビジョンにおける Timed Up and Go (TUG) テストの最初の応用について紹介する。
- 参考スコア(独自算出の注目度): 13.445499725722438
- License:
- Abstract: This study presents a novel approach to human keypoint detection in low-resolution thermal images using transfer learning techniques. We introduce the first application of the Timed Up and Go (TUG) test in thermal image computer vision, establishing a new paradigm for mobility assessment. Our method leverages a MobileNetV3-Small encoder and a ViTPose decoder, trained using a composite loss function that balances latent representation alignment and heatmap accuracy. The model was evaluated using the Object Keypoint Similarity (OKS) metric from the COCO Keypoint Detection Challenge. The proposed model achieves better performance with AP, AP50, and AP75 scores of 0.861, 0.942, and 0.887 respectively, outperforming traditional supervised learning approaches like Mask R-CNN and ViTPose-Base. Moreover, our model demonstrates superior computational efficiency in terms of parameter count and FLOPS. This research lays a solid foundation for future clinical applications of thermal imaging in mobility assessment and rehabilitation monitoring.
- Abstract(参考訳): 本研究では,トランスファーラーニング技術を用いた低分解能熱画像における人間のキーポイント検出に対する新しいアプローチを提案する。
本稿では,熱画像コンピュータビジョンにおける Timed Up and Go (TUG) テストの最初の応用について紹介し,モビリティ評価のための新しいパラダイムを確立する。
提案手法は,遅延表現アライメントとヒートマップ精度のバランスをとる複合損失関数を用いてトレーニングしたMobileNetV3-SmallエンコーダとViTPoseデコーダを利用する。
このモデルは,COCOキーポイント検出チャレンジから,オブジェクトキーポイント類似度(OKS)測定値を用いて評価した。
提案モデルでは,AP, AP50, AP75 スコア 0.861, 0.942, 0.887 に対して,Mask R-CNN や ViTPose-Base といった従来の教師あり学習手法よりも優れた性能を示す。
さらに,パラメータ数とFLOPSの点で計算効率が優れていることを示す。
本研究は, モビリティ評価とリハビリテーションモニタリングにおける熱画像の今後の臨床応用の基盤となる。
関連論文リスト
- vHeat: Building Vision Models upon Heat Conduction [63.00030330898876]
vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
論文 参考訳(メタデータ) (2024-05-26T12:58:04Z) - InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images [11.916941756499435]
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
本稿では,新しい授業の漸進的な学習を促進するために,InfRSと呼ばれる先駆的な微調整技術を導入する。
我々はワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を軽減する。
論文 参考訳(メタデータ) (2024-05-18T13:39:50Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - Pit-Pattern Classification of Colorectal Cancer Polyps Using a Hyper
Sensitive Vision-Based Tactile Sensor and Dilated Residual Networks [4.056583163276972]
我々は,HySenSeと呼ばれる高感度視覚に基づく触覚センサと,補完的で斬新な機械学習アーキテクチャを活用することを提案する。
提案されたアーキテクチャは最先端のMLモデル(例えばAlexNetやDenseNet)と比較され、性能と複雑さの点で優れていることが判明した。
論文 参考訳(メタデータ) (2022-11-13T04:42:10Z) - Lightweight Human Pose Estimation Using Heatmap-Weighting Loss [7.830376406370752]
本稿では,原位置情報,レベル間情報,レベル内情報を利用して精度を高めるアテンション機構を提案する。
また,熱マップ上の各画素の重み付けを行う熱マップ重み付け損失(Heatmap weighting loss)と呼ばれる新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:26:14Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - Low-resolution Human Pose Estimation [49.531572116079026]
低分解能ポーズ推定のための信頼意識学習(CAL)手法を提案する。
CALは、既存のオフセット学習手法の2つの基本的な制限に対処する: 一貫性のないトレーニングとテスト、分離されたヒートマップとオフセット学習。
提案手法は,低分解能人間のポーズ推定における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-19T09:13:57Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Distillation of neural network models for detection and description of
key points of images [0.0]
本研究の目的は,キーポイントの検出と記述のよりコンパクトなモデルを得ることである。
キーポイント検出方法をテストするための新しいデータセットと、割り当てられたキーポイントの新たな品質指標が導入された。
パラメータ数が大幅に少ない新しいモデルでは、元のモデルの精度に近い点マッチングの精度を示す。
論文 参考訳(メタデータ) (2020-05-18T18:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。