Fugu-MT 論文翻訳(概要): RGB Arabic Alphabets Sign Language Dataset

論文の概要: RGB Arabic Alphabets Sign Language Dataset

arxiv url: http://arxiv.org/abs/2301.11932v1
Date: Mon, 30 Jan 2023 10:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 20:09:14.707820
Title: RGB Arabic Alphabets Sign Language Dataset
Title（参考訳）: rgbアラビア語アルファベット手話データセット
Authors: Muhammad Al-Barham and Adham Alsharkawi and Musa Al-Yaman and Mohammad Al-Fetyani and Ashraf Elnagar and Ahmad Abu SaAleek and Mohammad Al-Odat
Abstract要約: このデータセットは、アラビア手話アルファベットの7,856の生のRGB画像と完全にラベル付けされたRGB画像からなる。このデータセットは、実際のアラビア語手話分類モデルの開発に関心がある人を支援することを目的としている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces the RGB Arabic Alphabet Sign Language (AASL) dataset. AASL comprises 7,856 raw and fully labelled RGB images of the Arabic sign language alphabets, which to our best knowledge is the first publicly available RGB dataset. The dataset is aimed to help those interested in developing real-life Arabic sign language classification models. AASL was collected from more than 200 participants and with different settings such as lighting, background, image orientation, image size, and image resolution. Experts in the field supervised, validated and filtered the collected images to ensure a high-quality dataset. AASL is made available to the public on Kaggle.
Abstract（参考訳）: 本稿では,RGB Arabic Alphabet Sign Language (AASL)データセットを紹介する。 AASLは、アラビア手話アルファベットの7,856の生のRGB画像と完全ラベル付きRGB画像で構成されており、我々の知る限り、最初の公開RGBデータセットである。このデータセットは、実際のアラビア語手話分類モデルの開発に興味がある人を助けることを目的としている。 AASLは200人以上の参加者から収集され、照明、背景、画像方向、画像サイズ、画像解像度などの異なる設定で収集された。この分野の専門家は、収集した画像を監視、検証、フィルタリングし、高品質なデータセットを確保する。 AASLはKaggleで一般公開されている。

関連論文リスト

Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms [58.60058450730943]
現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。以上の課題に対処するため,イベントストリームを活用して,RGBカメラによるジェスチャーデータのキャプチャを支援することを提案する。具体的には,15,676個のRGB-Eventサンプルと15,191個のグルースと2,568個の漢字を含むDVS346カメラを用いて,大規模なRGB-Event手話翻訳データセットを収集する。
論文参考訳（メタデータ） (2025-03-09T06:55:46Z)
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。 KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文参考訳（メタデータ） (2024-11-12T00:52:52Z)
Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文参考訳（メタデータ） (2024-10-01T13:39:26Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文参考訳（メタデータ） (2024-03-26T16:37:54Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文参考訳（メタデータ） (2023-01-06T19:19:25Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。 RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。 RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文参考訳（メタデータ） (2022-06-10T14:44:43Z)
BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。 Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-28T15:39:09Z)
Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。 OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文参考訳（メタデータ） (2022-05-25T15:43:31Z)
BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。データセットのモチベーションと統計、利用可能なアノテーションについて説明する。我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文参考訳（メタデータ） (2021-11-05T17:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。