論文の概要: SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition
- arxiv url: http://arxiv.org/abs/2506.21592v1
- Date: Wed, 18 Jun 2025 07:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.309738
- Title: SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition
- Title(参考訳): SignBart -- 孤立手話認識のためのスケルトンシーケンスを用いた新しいアプローチ
- Authors: Tinh Nguyen, Minh Khue Phan Tran,
- Abstract要約: 本研究では,骨格配列のx,y座標から意味情報を独立に抽出することの難しさを克服する新しいSLR手法を提案する。
749,888のパラメータだけで、このモデルはLSA-64データセットで96.04%の精度を達成している。
このモデルはまた、WLASLとASL-Citizenデータセット間で優れたパフォーマンスと一般化を示す。
- 参考スコア(独自算出の注目度): 0.17578923069457017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition is crucial for individuals with hearing impairments to break communication barriers. However, previous approaches have had to choose between efficiency and accuracy. Such as RNNs, LSTMs, and GCNs, had problems with vanishing gradients and high computational costs. Despite improving performance, transformer-based methods were not commonly used. This study presents a new novel SLR approach that overcomes the challenge of independently extracting meaningful information from the x and y coordinates of skeleton sequences, which traditional models often treat as inseparable. By utilizing an encoder-decoder of BART architecture, the model independently encodes the x and y coordinates, while Cross-Attention ensures their interrelation is maintained. With only 749,888 parameters, the model achieves 96.04% accuracy on the LSA-64 dataset, significantly outperforming previous models with over one million parameters. The model also demonstrates excellent performance and generalization across WLASL and ASL-Citizen datasets. Ablation studies underscore the importance of coordinate projection, normalization, and using multiple skeleton components for boosting model efficacy. This study offers a reliable and effective approach for sign language recognition, with strong potential for enhancing accessibility tools for the deaf and hard of hearing.
- Abstract(参考訳): 聴覚障害のある個人にとって、手話認識はコミュニケーション障壁を破るのに不可欠である。
しかし、従来のアプローチでは、効率と精度を選ばなければならなかった。
RNNやLSTM、GCNなどは、勾配の消失や計算コストの高騰に問題があった。
性能は向上したが、トランスフォーマーベースの手法は一般的には使われなかった。
本研究は, 従来のモデルでは分離不可能であることが多い骨格配列のx, y座標から, 意味のある情報を独立に抽出することの難しさを克服する新しいSLR手法を提案する。
BARTアーキテクチャのエンコーダデコーダを利用することで、モデルは独立してxとyの座標を符号化し、Cross-Attentionは相互関係を維持する。
749,888のパラメータだけで、このモデルはLSA-64データセットで96.04%の精度を達成し、100万以上のパラメータを持つ以前のモデルよりも大幅に上回っている。
このモデルはまた、WLASLとASL-Citizenデータセット間で優れたパフォーマンスと一般化を示す。
アブレーション研究は、座標投影、正規化、モデルの有効性を高めるために複数の骨格成分を使用することの重要性を強調している。
本研究は,手話認識に対する信頼性と効果的なアプローチを提供し,難聴者や難聴者に対するアクセシビリティツールの強化に強い可能性を秘めている。
関連論文リスト
- Hybrid Deep Learning and Signal Processing for Arabic Dialect Recognition in Low-Resource Settings [0.0]
アラビア語の方言認識は、アラビア語の言語的多様性と大きな注釈付きデータセットの不足により、大きな課題を呈している。
本研究では,古典的な信号処理技術とディープラーニングアーキテクチャを融合したハイブリッドモデリング戦略について検討する。
論文 参考訳(メタデータ) (2025-06-26T15:36:25Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Attention vs LSTM: Improving Word-level BISINDO Recognition [0.0]
インドネシアは、聴覚障害の件数で世界第4位である。
聴覚障害のある人は、しばしばコミュニケーションが困難であり、手話を使う必要がある。
本研究の目的は,手話翻訳アプリの簡易化と辞書化のためのモデル開発におけるAIの適用性を検討することである。
論文 参考訳(メタデータ) (2024-09-03T15:17:39Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。