論文の概要: One-Stage-TFS: Thai One-Stage Fingerspelling Dataset for Fingerspelling Recognition Frameworks
- arxiv url: http://arxiv.org/abs/2411.02768v1
- Date: Tue, 05 Nov 2024 03:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:56.511741
- Title: One-Stage-TFS: Thai One-Stage Fingerspelling Dataset for Fingerspelling Recognition Frameworks
- Title(参考訳): ワンステージTFS:タイのワンステージフィンガースペル認識フレームワークのためのデータセット
- Authors: Siriwiwat Lata, Sirawan Phiphitphatphaisit, Emmanuel Okafor, Olarik Surinta,
- Abstract要約: タイのワンステージフィンガースペルデータセットは、手ジェスチャー認識の研究を進めるために設計された総合的なリソースである。
このデータセットは、タイのラジャバト・マハ・サラカム大学(英語版)の大学生が行った15の1段子音のジェスチャーを7,200枚の画像から成っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Thai One-Stage Fingerspelling (One-Stage-TFS) dataset is a comprehensive resource designed to advance research in hand gesture recognition, explicitly focusing on the recognition of Thai sign language. This dataset comprises 7,200 images capturing 15 one-stage consonant gestures performed by undergraduate students from Rajabhat Maha Sarakham University, Thailand. The contributors include both expert students from the Special Education Department with proficiency in Thai sign language and students from other departments without prior sign language experience. Images were collected between July and December 2021 using a DSLR camera, with contributors demonstrating hand gestures against both simple and complex backgrounds. The One-Stage-TFS dataset presents challenges in detecting and recognizing hand gestures, offering opportunities to develop novel end-to-end recognition frameworks. Researchers can utilize this dataset to explore deep learning methods, such as YOLO, EfficientDet, RetinaNet, and Detectron, for hand detection, followed by feature extraction and recognition using techniques like convolutional neural networks, transformers, and adaptive feature fusion networks. The dataset is accessible via the Mendeley Data repository and supports a wide range of applications in computer science, including deep learning, computer vision, and pattern recognition, thereby encouraging further innovation and exploration in these fields.
- Abstract(参考訳): タイのワンステージフィンガースペル(One-Stage Fingerspelling、ワンステージTFS)データセットは、タイ語手話認識の研究を進めるために設計された総合的なリソースである。
このデータセットは、タイのラジャバト・マハ・サラカム大学(英語版)の大学生が行った15の1段子音のジェスチャーを7,200枚の画像から成っている。
コントリビュータには、タイ語に習熟した特別教育部の専門家学生と、それ以前の手話経験のない他の部署の学生の両方が含まれている。
画像は2021年7月から12月にかけて、デジタル一眼レフカメラを用いて収集された。
One-Stage-TFSデータセットは、手ジェスチャーの検出と認識における課題を提示し、新しいエンドツーエンド認識フレームワークを開発する機会を提供する。
研究者はこのデータセットを使用して、YOLO、EfficientDet、RetinaNet、Dectorronなどのディープラーニング手法を手検出に利用し、続いて畳み込みニューラルネットワーク、トランスフォーマー、適応型フィーチャーフュージョンネットワークなどの技術を使用して特徴抽出と認識を行う。
データセットはMendley Dataリポジトリを通じてアクセス可能で、ディープラーニング、コンピュータビジョン、パターン認識など、コンピュータ科学の幅広いアプリケーションをサポートし、これらの分野におけるさらなるイノベーションと探索を促進する。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Arabic Handwritten Text for Person Biometric Identification: A Deep Learning Approach [0.9910347287556193]
本研究は,人物の生体認証のためのアラビア手書きテキストを,ディープラーニングモデルがどの程度認識できるかを徹底的に検討する。
広く認識されている3つのデータセットを使用して、ResNet50、MobileNetV2、EfficientNetB7の3つの高度なアーキテクチャを比較している。
その結果、EfficientNetB7は、AHAWP、Khatt、LAMIS-MSHDデータセットで98.57%、99.15%、99.79%のアキュラシーを達成した。
論文 参考訳(メタデータ) (2024-06-01T11:43:00Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Force myography benchmark data for hand gesture recognition and transfer
learning [5.110894308882439]
我々は、この分野の進歩に寄与し、18のユニークなジェスチャーをカバーした20人の人から市販のセンサーを用いて、ベンチマークデータセットを収集する。
このようなデータに対する1つのユースケースを示し、転送学習を利用して、他の複数の人物のデータを組み込むことにより、ジェスチャー認識の精度を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-07-29T15:43:59Z) - A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文 参考訳(メタデータ) (2020-07-24T14:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。