論文の概要: Generation of Indian Sign Language Letters, Numbers, and Words
- arxiv url: http://arxiv.org/abs/2508.09522v1
- Date: Wed, 13 Aug 2025 06:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.776088
- Title: Generation of Indian Sign Language Letters, Numbers, and Words
- Title(参考訳): インド手話文字・数字・単語の生成
- Authors: Ajeet Kumar Yadav, Nishant Kumar, Rathna G N,
- Abstract要約: 我々は,高解像度のクラス条件手話画像を生成するGAN(Generative Adversarial Network)変異体を開発した。
修正アテンションに基づくモデルでは、インド手話文字、数字、単語の高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 0.9080472817672264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language, which contains hand movements, facial expressions and bodily gestures, is a significant medium for communicating with hard-of-hearing people. A well-trained sign language community communicates easily, but those who don't know sign language face significant challenges. Recognition and generation are basic communication methods between hearing and hard-of-hearing individuals. Despite progress in recognition, sign language generation still needs to be explored. The Progressive Growing of Generative Adversarial Network (ProGAN) excels at producing high-quality images, while the Self-Attention Generative Adversarial Network (SAGAN) generates feature-rich images at medium resolutions. Balancing resolution and detail is crucial for sign language image generation. We are developing a Generative Adversarial Network (GAN) variant that combines both models to generate feature-rich, high-resolution, and class-conditional sign language images. Our modified Attention-based model generates high-quality images of Indian Sign Language letters, numbers, and words, outperforming the traditional ProGAN in Inception Score (IS) and Fr\'echet Inception Distance (FID), with improvements of 3.2 and 30.12, respectively. Additionally, we are publishing a large dataset incorporating high-quality images of Indian Sign Language alphabets, numbers, and 129 words.
- Abstract(参考訳): 手の動き、表情、身体のジェスチャーを含む手話は、難聴者とコミュニケーションをとる上で重要な媒体である。
十分に訓練された手話コミュニティは簡単にコミュニケーションできるが、手話を知っている人は重大な課題に直面している。
認識と生成は、聴覚障害者と難聴者の間の基本的なコミュニケーション方法である。
認識の進歩にもかかわらず、手話生成はまだ検討する必要がある。
ProGAN(Progressive Growing of Generative Adversarial Network)は高品質な画像の生成に優れており、SAGAN(Self-Attention Generative Adversarial Network)は中程度の解像度で機能豊富な画像を生成する。
解像度と詳細のバランスは手話画像生成に不可欠である。
我々は,2つのモデルを組み合わせたGAN(Generative Adversarial Network)変異体を開発し,特徴量の多い高解像度,クラス条件手話画像を生成する。
修正アテンションに基づくモデルでは、インド手話文字、数字、単語の高品質な画像を生成し、従来のProGANをそれぞれ3.2と30.12とFr\echet Inception Distance(FID)で上回っている。
さらに、インド手話のアルファベット、数字、および129語の高品質な画像を含む大規模なデータセットも公開しています。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Image-based Indian Sign Language Recognition: A Practical Review using
Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。
この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。
我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文 参考訳(メタデータ) (2023-04-28T09:27:04Z) - Indian Sign Language Recognition Using Mediapipe Holistic [0.0]
インド手話をテキストや音声に変換するために,手話認識のための堅牢なシステムを構築する。
サイン言語に依存した聴覚障害と難聴者のコミュニケーション能力を高めるため、テキスト・ツー・サイン言語パラダイムの作成が不可欠である。
論文 参考訳(メタデータ) (2023-04-20T12:25:47Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。