Fugu-MT 論文翻訳(概要): Sign language recognition based on deep learning and low-cost handcrafted descriptors

論文の概要: Sign language recognition based on deep learning and low-cost handcrafted descriptors

arxiv url: http://arxiv.org/abs/2408.07244v1
Date: Wed, 14 Aug 2024 00:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 14:35:46.736992
Title: Sign language recognition based on deep learning and low-cost handcrafted descriptors
Title（参考訳）: ディープラーニングと低コスト手作り記述子に基づく手話認識
Authors: Alvaro Leandro Cavalcante Carneiro, Denis Henrique Pinheiro Salvadeo, Lucas de Brito Silva,
Abstract要約: 単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。低コストなセンサと技術を用いた手話認識システムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, deep learning techniques have been used to develop sign language recognition systems, potentially serving as a communication tool for millions of hearing-impaired individuals worldwide. However, there are inherent challenges in creating such systems. Firstly, it is important to consider as many linguistic parameters as possible in gesture execution to avoid ambiguity between words. Moreover, to facilitate the real-world adoption of the created solution, it is essential to ensure that the chosen technology is realistic, avoiding expensive, intrusive, or low-mobility sensors, as well as very complex deep learning architectures that impose high computational requirements. Based on this, our work aims to propose an efficient sign language recognition system that utilizes low-cost sensors and techniques. To this end, an object detection model was trained specifically for detecting the interpreter's face and hands, ensuring focus on the most relevant regions of the image and generating inputs with higher semantic value for the classifier. Additionally, we introduced a novel approach to obtain features representing hand location and movement by leveraging spatial information derived from centroid positions of bounding boxes, thereby enhancing sign discrimination. The results demonstrate the efficiency of our handcrafted features, increasing accuracy by 7.96% on the AUTSL dataset, while adding fewer than 700 thousand parameters and incurring less than 10 milliseconds of additional inference time. These findings highlight the potential of our technique to strike a favorable balance between computational cost and accuracy, making it a promising approach for practical sign language recognition applications.
Abstract（参考訳）: 近年、ディープラーニング技術は手話認識システムの開発に使われており、世界中の何百万人もの聴覚障害者のためのコミュニケーションツールとして機能している可能性がある。しかし、そのようなシステムを作る際には固有の課題がある。まず、単語間のあいまいさを避けるために、ジェスチャー実行においてできるだけ多くの言語パラメータを考慮することが重要である。さらに、生成したソリューションの現実的な採用を促進するためには、高い計算要求を課す非常に複雑なディープラーニングアーキテクチャと同様に、選択した技術がリアルであることを保証することが不可欠である。そこで本研究では,低コストなセンサと技術を用いた手話認識システムを提案する。この目的のために、オブジェクト検出モデルは、インタプリタの顔と手の検出、画像の最も関連性の高い領域へのフォーカスの確保、および分類器のセマンティック値の高い入力の生成に特化して訓練された。さらに,有界箱の位置から得られる空間情報を活用して手の位置や動きを表す特徴を求める手法を導入し,手話の識別を向上した。その結果,AUTSLデータセットの精度は7.96%向上し,700万未満のパラメータを追加し,さらに10ミリ秒未満の推論時間を発生させることができた。これらの結果は,計算コストと精度のバランスを保ち,実用的な手話認識アプリケーションとして有望なアプローチであることを示す。

関連論文リスト

Indian Sign Language Detection for Real-Time Translation using Machine Learning [0.1747623282473278]
畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
論文参考訳（メタデータ） (2025-07-27T21:15:46Z)
Developing Lightweight DNN Models With Limited Data For Real-Time Sign Language Recognition [0.0]
限られたデータに基づいて訓練された軽量DNNを用いて,リアルタイム手話認識のための新しいフレームワークを提案する。本システムは,データ不足,高い計算コスト,トレーニング環境と推論環境のフレームレートの相違など,手話認識における重要な課題に対処する。
論文参考訳（メタデータ） (2025-06-30T20:34:54Z)
Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments [6.295098866364597]
視覚言語モデル(VLM)と大規模言語モデル(LLM)を利用したオープン語彙シーンセマンティックセマンティックセマンティクスと検出パイプラインを提案する。提案手法は,オープンボキャブラリシーン分類のための「セグメント検出選択」フレームワークに従い,構築環境における補助ロボットの適応的・直感的なナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-03-29T14:46:45Z)
Enhancing Neural Spoken Language Recognition: An Exploration with Multilingual Datasets [1.4732811715354455]
本研究は,従来の特徴ベクトルモデルを超えて,音声認識システムを進化させたものである。私たちは、インド・ヨーロッパ語、セム語、東アジアの10言語を対象として、Common-Voiceから幅広いデータセットを活用しています。付加層を導入し,これらのネットワークをファンネル形状に再構成し,複雑な言語パターンの処理能力を高める。
論文参考訳（メタデータ） (2025-01-19T14:49:43Z)
Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。 SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文参考訳（メタデータ） (2024-09-11T17:17:44Z)
Language-driven Grasp Detection with Mask-guided Attention [10.231956034184265]
マスク誘導型注目を用いた言語駆動型グリップ検出手法を提案する。提案手法では,視覚データ,セグメンテーションマスク機能,自然言語命令を統合した。我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
論文参考訳（メタデータ） (2024-07-29T10:55:17Z)
Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文参考訳（メタデータ） (2024-07-02T13:02:51Z)
PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling [0.953605234706973]
Pen SLRは、IMU(Inertial Measurement Unit)とディープラーニングフレームワークによって駆動される5つのフレキシブルセンサーで構成されるグローブベースの手話システムである。本稿では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新しいアンサンブル手法を提案する。評価の結果,Pen SLRの単語精度は94.58%,96.70%であった。
論文参考訳（メタデータ） (2024-06-24T07:59:34Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Agile gesture recognition for capacitive sensing devices: adapting on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文参考訳（メタデータ） (2023-05-12T17:24:02Z)
On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文参考訳（メタデータ） (2023-03-19T22:15:05Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Novel Approach to Use HU Moments with Image Processing Techniques for Real Time Sign Language Communication [0.0]
手話通信装置(SLC)は,手話利用者と他国との言語障壁を解決するために設計されている。システムは選択した手話記号を84%の精度で認識できる。
論文参考訳（メタデータ） (2020-07-20T03:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。