論文の概要: Boosting Gesture Recognition with an Automatic Gesture Annotation Framework
- arxiv url: http://arxiv.org/abs/2401.11150v2
- Date: Sat, 05 Oct 2024 06:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:11.029847
- Title: Boosting Gesture Recognition with an Automatic Gesture Annotation Framework
- Title(参考訳): 自動ジェスチャーアノテーションフレームワークによるジェスチャー認識の高速化
- Authors: Junxiao Shen, Xuhai Xu, Ran Tan, Amy Karlson, Evan Strasnick,
- Abstract要約: そこで本稿では,ジェスチャクラスを自動的にアノテートし,その時間範囲を識別するフレームワークを提案する。
本フレームワークは,(1)コネクショニスト時間分類(CTC)の損失を利用した新しいアノテーションモデル,(2)半教師付き学習パイプラインからなる。
これらの高品質な擬似ラベルは、他の下流ジェスチャ認識モデルの精度を高めるためにも使用できる。
- 参考スコア(独自算出の注目度): 10.158684480548242
- License:
- Abstract: Training a real-time gesture recognition model heavily relies on annotated data. However, manual data annotation is costly and demands substantial human effort. In order to address this challenge, we propose a framework that can automatically annotate gesture classes and identify their temporal ranges. Our framework consists of two key components: (1) a novel annotation model that leverages the Connectionist Temporal Classification (CTC) loss, and (2) a semi-supervised learning pipeline that enables the model to improve its performance by training on its own predictions, known as pseudo labels. These high-quality pseudo labels can also be used to enhance the accuracy of other downstream gesture recognition models. To evaluate our framework, we conducted experiments using two publicly available gesture datasets. Our ablation study demonstrates that our annotation model design surpasses the baseline in terms of both gesture classification accuracy (3-4% improvement) and localization accuracy (71-75% improvement). Additionally, we illustrate that the pseudo-labeled dataset produced from the proposed framework significantly boosts the accuracy of a pre-trained downstream gesture recognition model by 11-18%. We believe that this annotation framework has immense potential to improve the training of downstream gesture recognition models using unlabeled datasets.
- Abstract(参考訳): リアルタイムジェスチャー認識モデルのトレーニングは、注釈付きデータに大きく依存する。
しかし、手動のデータアノテーションは高価であり、かなりの人的努力を必要とする。
この課題に対処するために,ジェスチャクラスを自動的に注釈付けし,時間範囲を識別するフレームワークを提案する。
本フレームワークは,(1)コネクショニスト時間分類(CTC)の損失を利用した新しいアノテーションモデル,(2)擬似ラベルと呼ばれる独自の予測に基づいて,モデルの性能向上を可能にする半教師付き学習パイプライン,の2つの要素から構成される。
これらの高品質な擬似ラベルは、他の下流ジェスチャ認識モデルの精度を高めるためにも使用できる。
フレームワークを評価するために、2つの公開ジェスチャーデータセットを用いて実験を行った。
本研究は,ジェスチャ分類精度(3-4%改善)とローカライゼーション精度(71-75%改善)の両面で,アノテーションモデル設計がベースラインを超えることを示す。
さらに,提案フレームワークから作成した擬似ラベル付きデータセットは,事前学習した下流ジェスチャ認識モデルの精度を11-18%向上させることを示した。
このアノテーションフレームワークは、ラベルなしデータセットを用いた下流ジェスチャ認識モデルのトレーニングを改善する大きな可能性を秘めていると信じている。
関連論文リスト
- Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection [59.498894868956306]
Pseudo-labeling approach to semi-supervised learning は教師-学生の枠組みを採用する。
我々は、事前学習した動き予測モデルを活用し、擬似ラベル付きデータに基づいて物体軌跡を生成する。
提案手法は2つの異なる方法で擬似ラベル品質を向上する。
論文 参考訳(メタデータ) (2024-09-17T05:35:00Z) - LabelFormer: Object Trajectory Refinement for Offboard Perception from
LiDAR Point Clouds [37.87496475959941]
オフボード認識モデルは、生のLiDARポイントクラウドからアノテーションを自動的に生成するように訓練されている。
本稿では,単純で効率的かつ効果的な軌道レベルの改良手法である LabelFormer を提案する。
提案手法はまず,まず各フレームの観察を別々に符号化し,その後,時間的文脈の完全な軌跡を判断するために自己注意を利用する。
論文 参考訳(メタデータ) (2023-11-02T17:56:06Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Dynamic Supervisor for Cross-dataset Object Detection [52.95818230087297]
オブジェクト検出タスクにおけるデータセット間のトレーニングは、データセットにまたがるカテゴリ内の不整合が、完全に教師付き学習を半教師付き学習に変換するため、複雑である。
本稿では,ハードラベルとソフトラベルを併用した複数更新サブモデルを用いて,アノテーションを複数回更新する動的スーパーバイザフレームワークを提案する。
最終生成アノテーションでは、ハードラベルトレーニングとソフトラベルトレーニングを統合することで、リコールと精度が大幅に向上した。
論文 参考訳(メタデータ) (2022-04-01T03:18:46Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。