論文の概要: Arabic Sign Language Recognition using Multimodal Approach
- arxiv url: http://arxiv.org/abs/2601.17041v1
- Date: Tue, 20 Jan 2026 09:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.020034
- Title: Arabic Sign Language Recognition using Multimodal Approach
- Title(参考訳): マルチモーダルアプローチによるアラビア語手話認識
- Authors: Ghadeer Alanazi, Abir Benabid,
- Abstract要約: アラビア手話(ArSL)は、聴覚障害者コミュニティにおける個人にとって不可欠なコミュニケーション方法である。
既存の認識システムは、Leap MotionやRGBカメラのような単一センサーアプローチに依存しているため、重大な課題に直面している。
本稿では,Leap Motion と RGB カメラデータを組み合わせて ArSL 認識の可能性を検討するマルチモーダルアプローチの可能性を検討することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arabic Sign Language (ArSL) is an essential communication method for individuals in the Deaf and Hard-of-Hearing community. However, existing recognition systems face significant challenges due to their reliance on single sensor approaches like Leap Motion or RGB cameras. These systems struggle with limitations such as inadequate tracking of complex hand orientations and imprecise recognition of 3D hand movements. This research paper aims to investigate the potential of a multimodal approach that combines Leap Motion and RGB camera data to explore the feasibility of recognition of ArSL. The system architecture includes two parallel subnetworks: a custom dense neural network for Leap Motion data, incorporating dropout and L2 regularization, and an image subnetwork based on a fine-tuned VGG16 model enhanced with data augmentation techniques. Feature representations from both modalities are concatenated in a fusion model and passed through fully connected layers, with final classification performed via SoftMax activation to analyze spatial and temporal features of hand gestures. The system was evaluated on a custom dataset comprising 18 ArSL words, of which 13 were correctly recognized, yielding an overall accuracy of 78%. These results offer preliminary insights into the viability of multimodal fusion for sign language recognition and highlight areas for further optimization and dataset expansion.
- Abstract(参考訳): アラビア手話(ArSL)は、聴覚障害者コミュニティにおける個人にとって不可欠なコミュニケーション方法である。
しかし、既存の認識システムは、Leap MotionやRGBカメラのような単一センサーアプローチに依存しているため、重大な課題に直面している。
これらのシステムは、複雑な手の動きの追跡が不十分なことや、手の動きを不正確に認識するといった制限に悩まされている。
本稿では,Leap Motion と RGB カメラデータを組み合わせて ArSL 認識の可能性を検討するマルチモーダルアプローチの可能性を検討することを目的とする。
システムアーキテクチャには、2つの並列サブネットワークが含まれている: Leap Motionデータのためのカスタムの高密度ニューラルネットワーク、ドロップアウトとL2正規化、およびデータ拡張技術で強化された微調整されたVGG16モデルに基づく画像サブネットワーク。
両モードの特徴表現は融合モデルで連結され、完全に連結された層を通過し、最終的な分類はSoftMaxアクティベーションによって行われ、手ジェスチャーの空間的特徴と時間的特徴を解析する。
このシステムは18のArSL単語からなるカスタムデータセットで評価され、そのうち13の単語が正しく認識され、全体的な精度は78%であった。
これらの結果は,手話認識のためのマルチモーダル融合の実現可能性に関する予備的な洞察と,さらなる最適化とデータセット拡張のための強調領域を提供する。
関連論文リスト
- Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition [21.772052273755808]
本稿では,LMGait という言語誘導型歩行認識フレームワークを提案する。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
複数のデータセットにまたがって広範な実験を行い、提案したネットワークの利点を実証した。
論文 参考訳(メタデータ) (2026-01-17T06:33:05Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition [1.3499500088995462]
FusionEnsemble-Netは、認識精度を高めるために視覚および運動データを融合する、注意に基づくネットワークのアンサンブルである。
実験の結果、FusionEnsemble-Netは99.44%の精度で最先端のアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T21:44:23Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。
本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。
また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文 参考訳(メタデータ) (2025-05-23T09:06:09Z) - GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。
マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。
提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。