論文の概要: ADDSL: Hand Gesture Detection and Sign Language Recognition on Annotated
Danish Sign Language
- arxiv url: http://arxiv.org/abs/2305.09736v1
- Date: Tue, 16 May 2023 18:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:51:32.848246
- Title: ADDSL: Hand Gesture Detection and Sign Language Recognition on Annotated
Danish Sign Language
- Title(参考訳): ADDSL: 注釈付きデンマーク手話における手話検出と手話認識
- Authors: Sanyam Jain
- Abstract要約: 本稿では,デンマーク手話用アノテーションデータセット(ADDSL)について紹介する。
このデータセットを用いて、1段オブジェクト検出モデル(YOLOv5)を訓練し、文字(A-Z)と数字(0-9)を認識する。
5つのモデルは350エポックで訓練され、平均推算時間は1枚あたり9.02ms、最高のアククラックは92%となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a long time, detecting hand gestures and recognizing them as letters or
numbers has been a challenging task. This creates communication barriers for
individuals with disabilities. This paper introduces a new dataset, the
Annotated Dataset for Danish Sign Language (ADDSL). Annota-tions for the
dataset were made using the open-source tool LabelImg in the YOLO format. Using
this dataset, a one-stage ob-ject detector model (YOLOv5) was trained with the
CSP-DarkNet53 backbone and YOLOv3 head to recognize letters (A-Z) and numbers
(0-9) using only seven unique images per class (without augmen-tation). Five
models were trained with 350 epochs, resulting in an average inference time of
9.02ms per image and a best accu-racy of 92% when compared to previous
research. Our results show that modified model is efficient and more accurate
than existing work in the same field. The code repository for our model is
available at the GitHub repository https://github.com/s4nyam/pvt-addsl.
- Abstract(参考訳): 長い間、手の動きを検出し、それらを文字や数字として認識することは難しい課題だった。
これにより、障害者のコミュニケーション障壁が形成される。
本稿では,新しいデータセットであるデンマーク手話用アノテーション付きデータセット(addsl)を提案する。
データセットのアノテーションは、オープンソースのツール labelimg を使って yolo フォーマットで作成されている。
このデータセットを使用して、1段階のオブジェクト検出器モデル(yolov5)をcsp-darknet53バックボーンとyolov3ヘッドで訓練し、文字(a-z)と数字(0-9)を認識する。
5つのモデルは350エポックで訓練され、1画像あたりの平均推定時間は9.02ms、最高のaccu-racyは以前の研究と比較して92%であった。
以上の結果から,修正モデルは同じ分野の既存の作業よりも効率的かつ正確であることが判明した。
私たちのモデルのコードリポジトリは、githubリポジトリhttps://github.com/s4nyam/pvt-addslで利用可能です。
関連論文リスト
- SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition [1.2691047660244335]
ArabSignデータセットは、6人の署名者が実行した9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均的な文の長さは3.1の記号である。
連続型ArSL認識のためのエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2022-10-08T07:36:20Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。