論文の概要: Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis
- arxiv url: http://arxiv.org/abs/2501.07221v1
- Date: Mon, 13 Jan 2025 11:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:13.908136
- Title: Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis
- Title(参考訳): コントラスト言語画像を用いた姿勢分類のための事前訓練の探索:与賀詩の分析から
- Authors: Andrzej D. Dobrzycki, Ana M. Bernardos, Luca Bergesio, Andrzej Pomirski, Daniel Sáez-Trigueros,
- Abstract要約: 本研究では,人間の姿勢の分類におけるコントラスト言語-画像事前訓練(CLIP)の有効性を評価することを目的とする。
82のクラスを持つ15,301の画像(実画像と合成画像)に転写学習を適用することで、有望な結果が得られた。
3826イメージでテストされた微調整のCLIPモデルは、85%以上の精度を実現している。
- 参考スコア(独自算出の注目度): 0.6524460254566905
- License:
- Abstract: Accurate human posture classification in images and videos is crucial for automated applications across various fields, including work safety, physical rehabilitation, sports training, or daily assisted living. Recently, multimodal learning methods, such as Contrastive Language-Image Pretraining (CLIP), have advanced significantly in jointly understanding images and text. This study aims to assess the effectiveness of CLIP in classifying human postures, focusing on its application in yoga. Despite the initial limitations of the zero-shot approach, applying transfer learning on 15,301 images (real and synthetic) with 82 classes has shown promising results. The article describes the full procedure for fine-tuning, including the choice for image description syntax, models and hyperparameters adjustment. The fine-tuned CLIP model, tested on 3826 images, achieves an accuracy of over 85%, surpassing the current state-of-the-art of previous works on the same dataset by approximately 6%, its training time being 3.5 times lower than what is needed to fine-tune a YOLOv8-based model. For more application-oriented scenarios, with smaller datasets of six postures each, containing 1301 and 401 training images, the fine-tuned models attain an accuracy of 98.8% and 99.1%, respectively. Furthermore, our experiments indicate that training with as few as 20 images per pose can yield around 90% accuracy in a six-class dataset. This study demonstrates that this multimodal technique can be effectively used for yoga pose classification, and possibly for human posture classification, in general. Additionally, CLIP inference time (around 7 ms) supports that the model can be integrated into automated systems for posture evaluation, e.g., for developing a real-time personal yoga assistant for performance assessment.
- Abstract(参考訳): 画像やビデオの正確な姿勢分類は、作業の安全、身体的リハビリテーション、スポーツトレーニング、日常生活支援など、様々な分野の自動化アプリケーションに欠かせない。
近年,コントラスト言語-画像事前学習(CLIP)のようなマルチモーダル学習手法が,画像とテキストの協調理解において大きく進歩している。
本研究の目的は,ヒトの姿勢の分類におけるCLIPの有効性を評価することである。
ゼロショットアプローチの初期限界にもかかわらず、82のクラスを持つ15,301の画像(実画像と合成画像)に転送学習を適用することで、有望な結果が得られた。
この記事では、画像記述構文、モデル、ハイパーパラメータ調整の選択を含む、微調整のための完全な手順について説明する。
3826のイメージでテストされた微調整のCLIPモデルは、精度が85%を超え、同じデータセット上でのこれまでの作業の最先端を約6%上回り、YOLOv8ベースのモデルを微調整するために必要なトレーニング時間よりも3.5倍低い。
よりアプリケーション指向のシナリオでは、それぞれ6つの姿勢のデータセットが小さく、1301と401のトレーニングイメージを含んでおり、微調整されたモデルはそれぞれ98.8%と99.1%の精度で達成されている。
さらに,1ポーズあたり20枚程度の画像でトレーニングを行うことで,6クラスのデータセットで約90%の精度が得られることを示した。
本研究は, このマルチモーダル手法がヨガポーズ分類に有効であり, 一般にヒト姿勢分類に有効であることを示す。
さらに、CLIP推論時間(約7ms)は、パフォーマンス評価のためのリアルタイムパーソナルヨガアシスタントを開発するために、姿勢評価のための自動システムにモデルを統合することができる。
関連論文リスト
- Human Pose Descriptions and Subject-Focused Attention for Improved Zero-Shot Transfer in Human-Centric Classification Tasks [89.1896982106731]
補助属性のみを用いて画像中の人体ポーズの文脈記述を作成するための新しいパイプラインを提案する。
CLIPを用いたゼロショット人間中心分類におけるポーズ記述の有効性を実証する。
我々のモデルはMPII Pose Descriptionsデータセットで事前訓練され、ゼロショット性能は5つの未確認データセットで評価された。
論文 参考訳(メタデータ) (2024-03-11T16:56:37Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - LiT Tuned Models for Efficient Species Detection [22.3395465641384]
本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。
iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。
我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
論文 参考訳(メタデータ) (2023-02-12T20:36:55Z) - How many images do I need? Understanding how sample size per class
affects deep learning model performance metrics for balanced designs in
autonomous wildlife monitoring [0.0]
本研究では,各クラス(種目)のサンプルサイズを段階的に増加させるために,ディープラーニングモデルの性能に関する課題を深く検討する。
我々は,動物種毎の画像の精度を推定するための近似式を生態学者に提供する。
論文 参考訳(メタデータ) (2020-10-16T06:28:35Z) - CPS++: Improving Class-level 6D Pose and Shape Estimation From Monocular
Images With Self-Supervised Learning [74.53664270194643]
現代のモノクロ6Dポーズ推定手法は、少数のオブジェクトインスタンスにしか対応できない。
そこで本研究では,計量形状検索と組み合わせて,クラスレベルのモノクル6次元ポーズ推定手法を提案する。
1枚のRGB画像から正確な6Dポーズとメートル法形状を抽出できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-03-12T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。