論文の概要: Zero-Shot Underwater Gesture Recognition
- arxiv url: http://arxiv.org/abs/2407.14103v1
- Date: Fri, 19 Jul 2024 08:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:23:52.956121
- Title: Zero-Shot Underwater Gesture Recognition
- Title(参考訳): ゼロショット水中ジェスチャー認識
- Authors: Sandipan Sarma, Gundameedi Sai Ram Mohan, Hariansh Sehgal, Arijit Sur,
- Abstract要約: 手のジェスチャー認識は、人間が非言語で機械と対話することを可能にする。
近年,CADDIANと呼ばれるジェスチャー言語がダイバー向けに考案され,高精度なジェスチャー認識のための教師あり学習法が適用されている。
本研究は,ゼロショット水中ジェスチャー認識 (ZSUGR) の必要性を提唱するものである。本研究の目的は,少数のクラスからのジェスチャーの視覚的サンプルを用いてモデルを訓練し,得られた知識をテスト時に伝達し,意味的に類似しないジェスチャークラスも認識することである。
- 参考スコア(独自算出の注目度): 3.4078654008228924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gesture recognition allows humans to interact with machines non-verbally, which has a huge application in underwater exploration using autonomous underwater vehicles. Recently, a new gesture-based language called CADDIAN has been devised for divers, and supervised learning methods have been applied to recognize the gestures with high accuracy. However, such methods fail when they encounter unseen gestures in real time. In this work, we advocate the need for zero-shot underwater gesture recognition (ZSUGR), where the objective is to train a model with visual samples of gestures from a few ``seen'' classes only and transfer the gained knowledge at test time to recognize semantically-similar unseen gesture classes as well. After discussing the problem and dataset-specific challenges, we propose new seen-unseen splits for gesture classes in CADDY dataset. Then, we present a two-stage framework, where a novel transformer learns strong visual gesture cues and feeds them to a conditional generative adversarial network that learns to mimic feature distribution. We use the trained generator as a feature synthesizer for unseen classes, enabling zero-shot learning. Extensive experiments demonstrate that our method outperforms the existing zero-shot techniques. We conclude by providing useful insights into our framework and suggesting directions for future research.
- Abstract(参考訳): 手のジェスチャー認識は、人間が非言語で機械と対話することを可能にする。
近年,CADDIANと呼ばれるジェスチャーベースの言語がダイバー向けに考案され,高精度なジェスチャー認識のための教師あり学習法が適用されている。
しかし、このような手法は、目に見えないジェスチャーにリアルタイムで遭遇すると失敗する。
本研究では,ゼロショット水中ジェスチャー認識(ZSUGR)の必要性を提唱する。目的は,少数の‘seen'クラスからのジェスチャーの視覚的サンプルを用いてモデルを訓練し,テスト時に得られた知識を伝達することにより,意味的に類似しないジェスチャークラスも認識することである。
問題とデータセット固有の課題について議論した後、我々はCADDYデータセットにおけるジェスチャークラスに対する新しい見知らぬ分割を提案する。
次に,新しいトランスフォーマーが強い視覚的ジェスチャーを学習し,特徴分布を模倣する条件付き生成対向ネットワークに供給する2段階の枠組みを提案する。
トレーニングされたジェネレータを未確認クラスのフィーチャーシンセサイザーとして使用し、ゼロショット学習を可能にした。
大規模な実験により,本手法は既存のゼロショット技術より優れていることが示された。
フレームワークに関する有用な洞察を提供し、今後の研究の方向性を提案することで締めくくります。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Deep self-supervised learning with visualisation for automatic gesture recognition [1.6647755388646919]
ジェスチャーは非言語コミュニケーションの重要な手段であり、視覚的モダリティにより、人間が対話中に情報を伝達し、人々や人間と機械の相互作用を促進する。
本研究では, 深層学習を用いた手指の認識方法として, 教師あり学習法, 自己教師あり手法, 3次元移動骨格データに適用した可視化技術について検討する。
論文 参考訳(メタデータ) (2024-06-18T09:44:55Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Towards Open-World Gesture Recognition [19.019579924491847]
手首輪デバイスに基づくジェスチャー認識などのジェスチャー認識を含む実世界のアプリケーションでは、データ分布は時間とともに変化する可能性がある。
本稿では,機械学習モデルが新しいタスクに適応できるようにするために,継続学習の利用を提案する。
オープンワールドな手首のジェスチャー認識プロセスの開発を促進するための設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2024-01-20T06:45:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文 参考訳(メタデータ) (2020-10-12T11:09:44Z) - A Prototype-Based Generalized Zero-Shot Learning Framework for Hand
Gesture Recognition [5.992264231643021]
ハンドジェスチャ認識のためのエンドツーエンドのプロトタイプベースのフレームワークを提案する。
最初のブランチは、ジェスチャー表現を学習するプロトタイプベースの検出器である。
2番目のブランチはゼロショットラベル予測器で、目に見えないクラスの機能を入力として取り、予測を出力する。
論文 参考訳(メタデータ) (2020-09-29T12:18:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。