論文の概要: Reconnaissance Automatique des Langues des Signes : Une Approche Hybridée CNN-LSTM Basée sur Mediapipe
- arxiv url: http://arxiv.org/abs/2510.22011v1
- Date: Fri, 24 Oct 2025 20:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.933002
- Title: Reconnaissance Automatique des Langues des Signes : Une Approche Hybridée CNN-LSTM Basée sur Mediapipe
- Title(参考訳): ルネサンス・オートメティクス・デ・ラングス・デ・サイン : Une Approche Hybridée CNN-LSTM Basée sur Mediapipe
- Authors: Fraisse Sacré Takouchouang, Ho Tuong Vinh,
- Abstract要約: 手話は聴覚障害のコミュニティのコミュニケーションにおいて重要な役割を担っているが、それらはしばしば疎外されている。
本研究では,キーポイント抽出にMediapipeを用いたハイブリッドCNN-LSTMアーキテクチャに基づく手話自動生成システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign languages play a crucial role in the communication of deaf communities, but they are often marginalized, limiting access to essential services such as healthcare and education. This study proposes an automatic sign language recognition system based on a hybrid CNN-LSTM architecture, using Mediapipe for gesture keypoint extraction. Developed with Python, TensorFlow and Streamlit, the system provides real-time gesture translation. The results show an average accuracy of 92\%, with very good performance for distinct gestures such as ``Hello'' and ``Thank you''. However, some confusions remain for visually similar gestures, such as ``Call'' and ``Yes''. This work opens up interesting perspectives for applications in various fields such as healthcare, education and public services.
- Abstract(参考訳): 手話は、聴覚障害のコミュニティのコミュニケーションにおいて重要な役割を担っているが、医療や教育といった重要なサービスへのアクセスを制限するために、しばしば疎外化されている。
本研究では,ジェスチャキーポイント抽出にMediapipeを用いたハイブリッドCNN-LSTMアーキテクチャに基づく手話認識システムを提案する。
Python、TensorFlow、Streamlitで開発されたこのシステムは、リアルタイムのジェスチャー変換を提供する。
結果は平均精度92\%を示し、 ``Hello'' や ``Thank you'' のような異なるジェスチャーに対して非常に優れたパフォーマンスを示している。
しかし、『Call』や『Yes』のような視覚的に類似したジェスチャーについては混乱が残る。
この研究は、医療、教育、公共サービスなど、さまざまな分野のアプリケーションに対する興味深い視点を開く。
関連論文リスト
- Indian Sign Language Detection for Real-Time Translation using Machine Learning [0.1747623282473278]
畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。
我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。
リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
論文 参考訳(メタデータ) (2025-07-27T21:15:46Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。