論文の概要: Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need
- arxiv url: http://arxiv.org/abs/2210.00893v1
- Date: Fri, 30 Sep 2022 17:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:52:55.715232
- Title: Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need
- Title(参考訳): 効率的な手話認識と精密手話認識を組み合わせる: 良いポーズ推定ライブラリは必要なだけ
- Authors: Maty\'a\v{s} Boh\'a\v{c}ek, Zhuo Cao, Marek Hr\'uz
- Abstract要約: サイン言語認識は、一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動作させるためには、堅牢なGPU装備のハードウェアが必要である。
我々はSPOTERアーキテクチャを構築し、これはこのタスクに使用される大規模モデルの性能に近いものである。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language recognition could significantly improve the user experience for
d/Deaf people with the general consumer technology, such as IoT devices or
videoconferencing. However, current sign language recognition architectures are
usually computationally heavy and require robust GPU-equipped hardware to run
in real-time. Some models aim for lower-end devices (such as smartphones) by
minimizing their size and complexity, which leads to worse accuracy. This
highly scrutinizes accurate in-the-wild applications. We build upon the SPOTER
architecture, which belongs to the latter group of light methods, as it came
close to the performance of large models employed for this task. By
substituting its original third-party pose estimation module with the MediaPipe
library, we achieve an overall state-of-the-art result on the WLASL100 dataset.
Significantly, our method beats previous larger architectures while still being
twice as computationally efficient and almost $11$ times faster on inference
when compared to a relevant benchmark. To demonstrate our method's combined
efficiency and precision, we built an online demo that enables users to
translate sign lemmas of American sign language in their browsers. This is the
first publicly available online application demonstrating this task to the best
of our knowledge.
- Abstract(参考訳): サイン言語認識は、IoTデバイスやビデオ会議といった一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
しかし、現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動くには堅牢なGPU装備のハードウェアが必要である。
一部のモデルは、そのサイズと複雑さを最小化し、より精度の悪いローエンドデバイス(スマートフォンなど)を目指している。
このことは、Wild の正確な応用を精査する。
我々は、このタスクに採用される大規模モデルのパフォーマンスに近づいているため、後者のlightメソッドに属するspoterアーキテクチャを構築しました。
元のサードパーティのポーズ推定モジュールをMediaPipeライブラリに置き換えることで、WLASL100データセットの全体的な最先端結果が得られる。
重要な点は,従来の大規模アーキテクチャを上回っても計算効率は2倍で,関連するベンチマークと比較した場合の推論速度は11ドルに近いことだ。
提案手法の効率性と精度の両立を実証するため,ユーザによる手話のサインレマをブラウザ上で翻訳するオンラインデモを構築した。
これは私たちの知る限り、このタスクを実証する初めての公開オンラインアプリケーションです。
関連論文リスト
- CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation [49.19402798479942]
マルチモーダル学習は 人工知能の 重要な研究領域になっています
知的エージェントにとって、国家は画像、ビデオ、言語といった一般的なモダリティと共に正確な情報を伝達する重要なモダリティである。
本稿では,状態情報を汎用表現に正確にエンコードできる高忠実コントラスト言語-状態事前学習法を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:08:00Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - FastHand: Fast Hand Pose Estimation From A Monocular Camera [12.790733588554588]
ハンドポーズ推定のための高速・高精度なフレームワーク「FastHand」を提案します。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
論文 参考訳(メタデータ) (2021-02-14T04:12:41Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。