論文の概要: RGB Arabic Alphabets Sign Language Dataset
- arxiv url: http://arxiv.org/abs/2301.11932v1
- Date: Mon, 30 Jan 2023 10:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:09:14.707820
- Title: RGB Arabic Alphabets Sign Language Dataset
- Title(参考訳): rgbアラビア語アルファベット手話データセット
- Authors: Muhammad Al-Barham and Adham Alsharkawi and Musa Al-Yaman and Mohammad
Al-Fetyani and Ashraf Elnagar and Ahmad Abu SaAleek and Mohammad Al-Odat
- Abstract要約: このデータセットは、アラビア手話アルファベットの7,856の生のRGB画像と完全にラベル付けされたRGB画像からなる。
このデータセットは、実際のアラビア語手話分類モデルの開発に関心がある人を支援することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the RGB Arabic Alphabet Sign Language (AASL) dataset.
AASL comprises 7,856 raw and fully labelled RGB images of the Arabic sign
language alphabets, which to our best knowledge is the first publicly available
RGB dataset. The dataset is aimed to help those interested in developing
real-life Arabic sign language classification models. AASL was collected from
more than 200 participants and with different settings such as lighting,
background, image orientation, image size, and image resolution. Experts in the
field supervised, validated and filtered the collected images to ensure a
high-quality dataset. AASL is made available to the public on Kaggle.
- Abstract(参考訳): 本稿では,RGB Arabic Alphabet Sign Language (AASL)データセットを紹介する。
AASLは、アラビア手話アルファベットの7,856の生のRGB画像と完全ラベル付きRGB画像で構成されており、我々の知る限り、最初の公開RGBデータセットである。
このデータセットは、実際のアラビア語手話分類モデルの開発に興味がある人を助けることを目的としている。
AASLは200人以上の参加者から収集され、照明、背景、画像方向、画像サイズ、画像解像度などの異なる設定で収集された。
この分野の専門家は、収集した画像を監視、検証、フィルタリングし、高品質なデータセットを確保する。
AASLはKaggleで一般公開されている。
関連論文リスト
- IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition [6.780778335996319]
本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
論文 参考訳(メタデータ) (2023-12-02T16:56:57Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。
今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文 参考訳(メタデータ) (2023-01-06T19:19:25Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文 参考訳(メタデータ) (2022-06-10T14:44:43Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - A Hybrid Deep Learning Model for Arabic Text Recognition [2.064612766965483]
本稿では,複数のフォントタイプを用いて印刷されたアラビア文字を認識可能なモデルを提案する。
提案モデルでは,文字セグメンテーションを必要とせずにアラビア文字を認識可能なハイブリッドDLネットワークを採用している。
このモデルは文字と単語の認識において良好な結果が得られ、また、未知のデータでテストされた文字の認識においても有望な結果が得られた。
論文 参考訳(メタデータ) (2020-09-04T02:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。