Fugu-MT 論文翻訳(概要): Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models

論文の概要: Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models

arxiv url: http://arxiv.org/abs/2410.00681v1
Date: Tue, 1 Oct 2024 13:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 04:25:20.100837
Title: Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models
Title（参考訳）: トランスファーラーニングとトランスフォーマーモデルを用いた高度アラビアアルファベット手話認識
Authors: Mazen Balat, Rewaa Awaad, Hend Adel, Ahmed B. Zaky, Salah A. Aly,
Abstract要約: 本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper presents an Arabic Alphabet Sign Language recognition approach, using deep learning methods in conjunction with transfer learning and transformer-based models. We study the performance of the different variants on two publicly available datasets, namely ArSL2018 and AASL. This task will make full use of state-of-the-art CNN architectures like ResNet50, MobileNetV2, and EfficientNetB7, and the latest transformer models such as Google ViT and Microsoft Swin Transformer. These pre-trained models have been fine-tuned on the above datasets in an attempt to capture some unique features of Arabic sign language motions. Experimental results present evidence that the suggested methodology can receive a high recognition accuracy, by up to 99.6\% and 99.43\% on ArSL2018 and AASL, respectively. That is far beyond the previously reported state-of-the-art approaches. This performance opens up even more avenues for communication that may be more accessible to Arabic-speaking deaf and hard-of-hearing, and thus encourages an inclusive society.
Abstract（参考訳）: 本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。このタスクは、ResNet50、MobileNetV2、EfficientNetB7のような最先端のCNNアーキテクチャと、Google ViTやMicrosoft Swin Transformerといった最新のトランスフォーマーモデルを完全に活用する。これらの事前訓練されたモデルは、アラビア手話の動きのユニークな特徴を捉えるために、上記のデータセット上で微調整されている。実験の結果,ArSL2018 と AASL でそれぞれ 99.6\% と 99.43\% の高い認識精度が得られた。これは、これまで報告された最先端のアプローチをはるかに超えている。この演奏は、アラビア語話者の聴覚障害や難聴者にとってよりアクセスしやすいコミュニケーションのためにさらに多くの道を開き、包括的社会を奨励する。

関連論文リスト

Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition [0.0]
本研究では、MobileNetV3、ResNet50、EfficientNet-B2といった最先端のディープラーニングモデルを用いて、アラビア手話(ArSL)を認識するための統合的なアプローチを提案する。提案システムは、認識精度の新たなベンチマークを設定するだけでなく、解釈可能性も重視し、医療、教育、包括的コミュニケーション技術への応用に適している。
論文参考訳（メタデータ） (2025-01-14T14:49:49Z)
Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。 Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。 1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-23T13:08:48Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter [0.32885740436059047]
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
論文参考訳（メタデータ） (2024-01-30T19:01:24Z)
Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文参考訳（メタデータ） (2023-01-06T19:19:25Z)
Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。 DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文参考訳（メタデータ） (2022-11-21T18:56:00Z)
Sign Language to Text Conversion in Real Time using Transfer Learning [0.0]
本稿では,アメリカ手話を用いたディープラーニングモデルを提案する。精度はCNNの94%から、Transfer Learningによって98.7%に向上した。
論文参考訳（メタデータ） (2022-11-13T17:20:19Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文参考訳（メタデータ） (2022-04-15T03:44:00Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文参考訳（メタデータ） (2021-03-11T06:47:45Z)
AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文参考訳（メタデータ） (2020-12-31T09:48:05Z)
AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。 AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文参考訳（メタデータ） (2020-12-31T09:35:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。