論文の概要: Kathakali Hand Gesture Recognition With Minimal Data
- arxiv url: http://arxiv.org/abs/2404.11205v1
- Date: Wed, 17 Apr 2024 09:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:35:31.438953
- Title: Kathakali Hand Gesture Recognition With Minimal Data
- Title(参考訳): 最小データを用いたカタカリ手指ジェスチャー認識
- Authors: Kavitha Raju, Nandini J. Warrier,
- Abstract要約: インド古典のダンスドラマ『カタカリ』には、ムドラと呼ばれる手振りのセットがあり、ダンスの動きと姿勢の基本的な単位となっている。
泥の認識は、そのデジタル処理における最初のステップの1つとなる。
我々はKathakali Mudra認識のためのデータセットを開発し、公開しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Indian classical dance-drama Kathakali has a set of hand gestures called Mudras, which form the fundamental units of all its dance moves and postures. Recognizing the depicted mudra becomes one of the first steps in its digital processing. The work treats the problem as a 24-class classification task and proposes a vector-similarity-based approach using pose estimation, eliminating the need for further training or fine-tuning. This approach overcomes the challenge of data scarcity that limits the application of AI in similar domains. The method attains 92% accuracy which is a similar or better performance as other model-training-based works existing in the domain, with the added advantage that the method can still work with data sizes as small as 1 or 5 samples with a slightly reduced performance. Working with images, videos, and even real-time streams is possible. The system can work with hand-cropped or full-body images alike. We have developed and made public a dataset for the Kathakali Mudra Recognition as part of this work.
- Abstract(参考訳): インド古典のダンスドラマ『カタカリ』には、ムドラと呼ばれる手振りのセットがあり、ダンスの動きと姿勢の基本的な単位となっている。
描かれた泥の認識は、そのデジタル処理における最初のステップの1つとなる。
この研究は24クラス分類タスクとしてこの問題を扱い、ポーズ推定を用いたベクトル類似性に基づくアプローチを提案し、さらなるトレーニングや微調整の必要性を排除した。
このアプローチは、同様のドメインにおけるAIの適用を制限する、データの不足という課題を克服するものだ。
この手法は、ドメインに存在する他のモデルトレーニングベースの作業と同じような、あるいはより優れたパフォーマンスの92%の精度を達成する。
画像やビデオ、さらにはリアルタイムストリームの操作も可能だ。
このシステムは、手書き画像やフルボディ画像でも使える。
我々は、この研究の一環として、カタリ・ムドラ認識のためのデータセットを開発し、公開しました。
関連論文リスト
- Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - A Training Method For VideoPose3D With Ideology of Action Recognition [0.9949781365631559]
本研究は,行動認識に基づくビデオPose3Dのより高速で柔軟なトレーニング手法を示す。
アクション指向と一般的なポーズ推定の両方の問題を扱うことができる。
論文 参考訳(メタデータ) (2022-06-13T19:25:27Z) - Metric Based Few-Shot Graph Classification [1.6474262142781435]
少ないショットの学習では、有効性を放棄することなく、不足するデータレシエーションに現代的なディープラーニングモデルを採用することができる。
この研究は、単純な距離距離のメートル法学習ベースラインに最先端のグラフ埋め込み器を組み込むことで、タスク上での競合的な結果が得られることを示している。
また,MixUpをベースとしたオンラインデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T06:29:46Z) - Perspective Flow Aggregation for Data-Limited 6D Object Pose Estimation [121.02948087956955]
宇宙や水中の深層などのいくつかのアプリケーションでは、実際の画像を取得することは、注釈のないものであっても、事実上不可能である。
本稿では,合成画像のみに限定してトレーニングできる手法を提案する。
これは、アノテートされた実画像を必要としない場合、トレーニングのためにアノテートされた実画像を必要とするメソッドと同等に動作し、20個の実画像を使用する場合、かなりパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-03-18T10:20:21Z) - MEAL: Manifold Embedding-based Active Learning [0.0]
アクティブな学習は、ラベル付けのための最も有望なサンプルを提案することで、少量のデータから学ぶのに役立つ。
本稿では,各獲得ステップにおいて,有望な画像領域を提案するアクティブラーニングのためのプールベースの新しい手法を提案する。
また,Cityscapesでは,Cityscapesでは,CamVidの性能向上が認められなかった。
論文 参考訳(メタデータ) (2021-06-22T15:22:56Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。